Text- und Datamining - Navigation im Datenmeer

Plattformen wie E-rara, e-manuscripta und e-periodica wollen wir heute nicht mehr missen. Dabei lassen sich die Inhalte der Webseiten nicht nur anschauen und lesen, sondern auch mit einfachen Werkzeugen des Data Mining analysieren. Wie das geht? Das haben 12 Teilnehmerinnen und Teilnehmer am 15. Juni 2022 in Bern erfahren, an der zweiten Jubiläumsveranstaltung der IG WBS.

Die Veranstaltung zum Themenbereich «Technologie und Innovation» konnte endlich wieder vor Ort stattfinden, an der UniS in Bern. Kathi Woitas aus dem Digital Scholarship der Universitätsbibliothek Bern und Dr. Nuria Plattner, Fachreferentin der Exakten Wissenschaften, ebenfalls bei der UB Bern, führten in 2.5 Stunden in die Möglichkeiten des Data-Mining ein und liessen die Teilnehmenden ein Bearbeitungstutorial auf der Basis von Python für Daten aus e-rara, e-manuscripta und e-periodica ausprobieren. Vorkenntnise in Python waren für diese Veranstaltung nicht verlangt, sodass wissenschaftliche Bibliothekarinnen und Bibliothekare aus verschiedensten Bibliotheksbereichen in der UniS zusammenfanden.

Doch was ist Data-Mining überhaupt? Data-Mining bezeichnet Vorgänge, die spezifische Daten oder Datengruppen aus einer grossen Datenmenge herausfiltern. Data-Mining ist weit verbreitet und wird zum Beispiel für die Werbung, Textanalyse und gar die Medikamentenentwicklung verwendet. Aber auch in den Geistes- und den Sozialwissenschaften ist Data-Mining möglich und wird auch umgesetzt. Gerade Daten aus Archiven, Bibliotheken und Museen sind oft für die Forschung interessant. Sie dienen damit als Data-Provider für Sozialwissenschaftler, Historiker und Informationswissenschaftler. Data-Mining kann automatisch über vorhandene Software gemacht werden oder aber auch halbautomatisch per eigens dafür geschriebenem Code oder Kleinprogrammen. Halbautomatisch ist der letztere Prozess deshalb, weil die Abfragen und einzelnen Schritte in einer Programmiersprache erfasst und meistens aus bestehenden Befehl-Bausteinen zusammengestellt werden müssen.

Beim Wort Programmierung baut sich bei vielen Personen eine psychologische Hürde auf. Man denkt dabei an Nullen und Einsen, an grosse Rechner und rauchende Köpfe. Ganz in diesem Sinne wollte auch der IG WBS-Workshop den TeilnehmerInnen die Angst nehmen und die Möglichkeiten von Data Mining mit geisteswissenschaftlichen Daten zeigen. Wie die beiden Leiterinnen des Workshops ausführten, sind die Zielgruppe der Digital-Scholarship-Angebote der UB Bern nicht Studierende, sondern Forschende und Bibliothekare. Interessierten bietet die UB Bern Workshops an, aber auch die Möglichkeit, Datamining für Forschende zu übernehmen und datenbasierte Projekte zu unterstützen. Als wichtige Unterstützung bietet die UB Bern eine Digitale Toolbox an – entwickelt von Kathi Woitas und Nuria Plattner – die bei der Datenfilterung in e-periodica, e-rara und e-manuscripta die nötigen Code-Bausteine direkt mit einem Tutorial versehen zur Verfügung stellt. Die Toolbox wird frei nutzbar angeboten (z.B. auf Basis von Jupyter Notebooks) und alle Informationen sind über GitHub abrufbar. Die Vorteile der Verwendung von Code-Bausteinen statt eines vorprogrammierten Programms sind die freie Anpassungsmöglichkeit und das bessere Verständnis für die einzelnen Vorgänge.

Trotz der Einteilung in verständliche Schritte und das Angebot vorgegebener Befehle hat sich gezeigt, dass sich der Besuch eines Python Kurses rsp. das Absolvieren eines Python-Tutorials durchaus als nötig erweisen kann. So lernt man systematisch die einfachsten und gängigsten Funktionen kennen. Die Kursleiterinnen empfehlen aber auch «Learning by doing», z.B. in Form eines eigenen Projekts. Versucht man eigene Ideen umzusetzen und scheint zu scheitern, ist gemäss den Kursleiterinnen Google ein treuer Begleiter. Dies hat sich auch während des Kurses gezeigt, als ein Workaround für einen Code-Baustein dank Google rasch gefunden werden konnte. Auf die Wahl der Suchbegriffe ist aber auch hier zu achten: der Suchbegriff «Python Länge» liefert zwar schöne Reptilien, aber nur wenig Programmierhilfe.

Die Veranstaltung gab auch Raum, über bestehenden Herausforderungen und Verbesserungspotenziale zu sprechen. Besonders bei den Bibliotheken möchte das Team des Digital Scholarship in Bern das Bewusstsein wecken, dass Forschende vor allem grosse Mengen an Metadaten möchten und Data Mining hier die Übertragung und Nutzung vereinfacht. Was dem noch teilweise im Wege steht, ist, dass bei vielen Plattformen Daten über eine OAI-PMH-Schnittstelle zur maschinellen Weiterverwendung angeboten werden. Das grosse Manko dieser schon älteren Technik ist die fehlende Suchmöglichkeit in allen Daten. Es kann nicht direkt über die Schnittstelle nach den nötigen Daten gesucht werden. Daten müssen zuerst herausgeholt und heruntergeladen bevor sie weiterbearbeitet werden können. Anders ist dies bei den technisch komplexeren Schnittstellen SRU, Linked Open Data und REST.

Aufgrund dessen, dass keine Suche über OAI möglich ist, sind die Nutzerinnen und Nutzer für eine einfachere bzw. praktischere Nutzung der Schnittstelle auf schon vordefinierte Daten-Sets angewiesen. Bei e-rara sind dies beispielsweise Institutionen-Sets. E-periodica bietet Sets nach Themen, jedoch nicht nach Zeitschriftentitel an. Umfassende Suchen ausserhalb der Sets bspw. nach einem Erscheinungsort sind daher umständlicher, weil alle Datensätze heruntergeladen werden müssen. Auch grössere Open-Access-Angebote bieten oft eine OAI-Schnittstelle an, jedoch ist nur teilweise auf der Webseite des Anbieters auch eine Datamining-Seite mit Informationen zu möglichen einsetzbaren Parametern etc. vorhanden. Diesbezüglich, da sind sich die Veranstalterinnen und auch die Teilnehmenden einig, gäbe es noch grosses Potenzial.

Maria Solovey, IG WBS