Forschung: Computer liest alte Texte

Forschung

24.04.2019

Computer liest alte Texte

Würzburger Wissenschaftler haben ein Werkzeug entwickelt, das historische Drucke fast fehlerfrei entziffert. Wo die Probleme lagen

Wissenschaftler der Julius-Maximilians-Universität Würzburg (JMU) haben ein Computertool für alte Texte entwickelt. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in einen computerlesbaren Text um, wie die Uni mitteilte. Zudem biete OCR4all eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig sei. Das neue elektronische Werkzeug sei unter der Leitung von Christian Reul mit Informatik-Fachkollegen und vielen Studenten konzipiert worden.

Seine Wurzeln hat OCR4all laut Mitteilung im Kallimachos-Verbundprojekt der Uni, das vom Bundesbildungsministerium gefördert wird. Diese Kooperation zwischen Geisteswissenschaften und Informatik werde im neugegründeten Zentrum für Philologie und Digitalität weitergeführt und institutionalisiert. Bei der Entwicklung hätten die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet, unter anderem mit der Germanistik und der Romanistik. Dort sei es darum gegangen, das „Narrenschiff“, eine Moralsatire von Sebastian Brant aus dem 15. Jahrhundert, digital aufzubereiten.

Laut Reul war eines der größten Probleme die Typografie. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhunderts keine einheitlichen Schriften verwendeten. „Ihre Druckstempel waren alle selbstgeschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“ In alten Drucken seien e oder c, v oder r oft nicht einfach zu unterscheiden. Eine Software könne aber lernen, solche Feinheiten zu erkennen.

Wie es heißt, hat Reul auch externe Partner von der Qualität der Forschung überzeugt. Mit dem „Zentrum für digitale Lexikografie der deutschen Sprache“ in Berlin sei Daniel Sanders’ „Wörterbuch der deutschen Sprache“ digital erschlossen worden. Dieses Werk enthalte pro Textzeile oft verschiedene Schrifttypen, die für jeweils andere semantische Informationen stünden. Hier sei der bestehende Ansatz zur Zeichenerkennung so erweitert worden, dass sich neben dem Text auch die Typografie und damit die komplexe inhaltliche Struktur des Lexikons exakt abbilden ließen. (kna)

Themen folgen

Die Diskussion ist geschlossen.