Innerhalb weniger Jahre haben wir uns daran gewöhnen müssen, dass Computer durch Methoden der Künstlichen Intelligenz inzwischen Dinge tun können, die man eigentlich nur Menschen zugetraut hätte. Maschinen haben uns nicht nur im Schach geschlagen sondern auch in der Quiz-Show Jeopardy und jüngst im Go-Spielen.
Was macht die Maschinen so erfolgreich? Daten! Ein Computer, der zehntausende von Krebs-Vorstufen „gesehen“ und analysiert hat, ist sogar in einem gewissen Vorteil gegenüber einem Dermatologen, der sein Wissen vielleicht nur aus einigen hunderten von Beobachtungen ziehen kann. Klar ist natürlich auch, dass der Mediziner über menschliche Intuition und Wissen etwa über die Lebenssituation des Patienten verfügt, worauf die Maschine keinen Zugriff hat. Der Mehrwehrt liegt hier in der geschickten Verknüpfung von Mensch und Maschine.
In der Übersetzungsbranche ist es schon länger gang und gäbe, bei gleichförmigen Routineübersetzungen Translation Memories (TMs) einzusetzen. Die TMs selber verfügen über keine Intelligenz. Sie verhalten sich wie Papageien, die einmal gelernte Übersetzungen von Phrasen oder Sätzen stumpf reproduzieren. Die Aufgabe des Menschen ist es dann, den Feinschliff zu geben, auf Konsistenz des gesamten Textes zu achten, Wissen über Stilvorgaben, Zielpublikum, Kontext der Übersetzung, etc. einzubringen.
Statistische Maschinelle Übersetzung: von phrasenbasierten zu neuronalen Systemen
Datengetriebene Verfahren der Maschinellen Übersetzung (MÜ) gehen hier einen Schritt weiter, indem sie versuchen, zu unbekannten Input-Sätzen basierend auf großen Mengen zuvor gesehener Übersetzungen ganz neue Output-Sätze zu erzeugen, die sie vorher eben noch nicht gesehen haben.
In der Vergangenheit waren die statistischen MÜ-Systeme (gemeinhin als SMT – Statistical Machine Translation bezeichnet) phrasenbasiert. Die wohl bekannteste Implementation ist das Moses-Paket. Das zentrale Modul war so ähnlich aufgebaut wie ein TM, bei dem alle möglichen Übersetzungen der Teilphrasen mit Wahrscheinlichkeiten versehen sind. Vor und nach der Übersetzung von Phrasen und Wörtern fanden verschiedene Schritte wie das Umordnen von Wortketten und das „Glätten“ der Teilübersetzungen zu einem Satz statt. Hierbei mussten verschiedene Module einzeln auf ein- oder zweisprachigen Daten trainiert werden, was im Ergebnis zu erheblichen Reibungsverlusten führte, da bildlich gesprochen oft die Linke nicht wusste, was die Rechte tat.
Die neuste Klasse von SMT-Systemen sind die sogenannten neuronalen MÜ-Systeme (NMT – Neural Machine Translation). Diese basieren auf einer unlängst wiederentdeckten Art von maschinellem Lernen, bei dem sich künstliche Neuronen in Schichten selbst organisieren. Sie sind angelehnt sind an die Funktionsweise von Gehirnen, bei denen ja die Vernetzung der Neuronen das Denken und Erinnern ermöglicht. Das charmante an diesem Ansatz ist, dass die Systeme end-to-end funktionieren und keine weiteren Zwischen-Module benötigen: Man gibt ihnen Quellsätze und Übersetzungen und den Rest erledigen die Systeme alleine. Die Übersetzung findet im gesamten Satzkontext statt.
Wie gut sind die NMT Systeme denn?
Mit der Umstellung auf die NMT-System haben wir einen drastischen Qualitätssprung erlebt. Hier ein einfaches Beispiel, übersetzt mit Google Translate vor der Umstellung auf neuronale Technologie und danach:[1]
Quelle: Warum macht der Tourist drei Fotos?
Referenz: Why does the tourist take three fotos?
Google Translate (phrasenbasiert): Why does the tourist three fotos?
Google Translate (neuronal): Why does the tourist make three fotos?
Die Schwierigkeit für die alten, phrasenbasierten Systeme liegt hier darin, dass das Verb im Deutschen und Englischen an unterschiedlichen Positionen steht. Dies’ führte oft dazu, dass das Verb einfach nicht übersetzt wurde wie im obigen Beispiel. Die neuronalen Systeme mit ihrer Sicht auf den gesamten Satz haben dieses Problem nicht. Auch wenn die Wahl des Verbs noch nicht optimal ist, so ist der Satz doch vollständig und verständlich.
Oft werden heute bei den neuronalen Systemen nicht Wörter oder die Phrasen als Grundlage der statistischen Modelle genommen, sondern Buchstabengruppen. Dies führt (in seltenen Fällen) dazu, dass die Systeme Wörter einfügen, die auf den ersten Blick völlig unmotiviert scheinen, hier am Beispiele eines NMT Systemes eines Projektpartners:
Quelle: Die Arbeiter müssten in den sauren Apfel beißen.
Referenz: The workers would have to bite the bullet.
Google Translate (phrasenbasiert): The workers would have to bite the bullet.
NMT: The workers would have to bite into the clean apple.
Der Grund für die Fehlübersetzung „clean“ ist höchstwahrscheinlich, dass die Worte „sauer“ und „sauber“ intern ähnlich behandelt werden. Wir gehen allerdings davon aus, dass dies Kinderkrankheiten der Systeme sind, die verschwinden werden.
In zwei wissenschaftlichen Publikationen haben wir die Qualität verschiedener MÜ-Systeme verglichen. Zunächst in einer unspezifischen Domäne und dann bezogen auf die Frage, ob in einer technischen Domäne ein unangepasstes NMT-System bereits besser ist als ein vom Kunden aufwändig an die Domäne angepasstes herkömmliches SMT System (Moses).
- Aljoscha Burchardt, Vivien Macketanz, Jon Dehdari, Georg Heigold, Jan-Thorsten Peter, Philip Williams – A Linguistic Evaluation of Rule-Based, Phrase-Based, and Neural MT Engines, Proceedings of EAMT 2017, Prague, Czech Republic
- Anne Beyer, Vivien Macketanz, Aljoscha Burchardt and Philip Williams – Can Out-of-the-box NMT Beat a Domain-trained Moses on Technical Data? Proceedings of EAMT 2017, Prague, Czech Republic
In der Wissenschaft war es bisher üblich, die Übersetzungsqualität durch einen automatischen Vergleich des System-Outputs mit einer Referenzübersetzung zu vergleichen. Dabei kommt meistens der BLEU-Score als Messmethode zum Einsatz. Diese Herangehensweise erzeugt als Ergebnis Zahlenwerte, die nicht nur in der Wissenschaft inzwischen immer stärker kritisiert werden, sondern auch LSPs keinerlei Informationen darüber geben, wie gut die Qualität der Systeme ist oder mit welchen Fehlern in den Systemen zu rechnen ist.
Um ein genaues Bild der Fehler zu bekommen, die die Systeme machen, haben wir in der Vergangenheit am DFKI zusammen mit fortschrittlichen LSPs wie text&form und Interessensverbänden wie GALA und FIT zwei Methoden entwickelt, durch die Sprachexperten detailliertes Feeback geben können.