Innerhalb weniger Jahre haben wir uns daran gewöhnen müssen, dass Computer durch Methoden der künstlichen Intelligenz Dinge tun können, die man eigentlich nur Menschen zugetraut hätte. Maschinen haben uns nicht nur im Schach geschlagen, sondern auch in der Quiz-Show Jeopardy und jüngst im chinesischen Spiel Go, welches lange Zeit als nicht durch Maschinen zu meistern galt. Bei Letzterem kamen neuronale Netzwerke zum Einsatz, eine Technologie, die auch bei der Neural Machine Translation (NMT) verwendet wird.
Was macht die Maschinen so erfolgreich? Daten! Ein Computer, der Zehntausende von Krebs-Vorstufen „gesehen“ und analysiert hat, ist sogar gegenüber einem Dermatologen im Vorteil, der sein Wissen vielleicht nur aus einigen Hundert Beobachtungen ziehen kann. Klar ist natürlich auch, dass der Mediziner über menschliche Intuition und Wissen etwa über die Lebenssituation des Patienten verfügt, worauf die Maschine keinen Zugriff hat. Der Mehrwehrt liegt hier in der geschickten Verknüpfung von Mensch und Maschine.
In der Übersetzungsbranche ist es schon länger gang und gäbe, bei gleichförmigen Routineübersetzungen Translation Memorys (TMs) einzusetzen. Die TMs selbst verfügen über keine Intelligenz. Sie verhalten sich wie Papageien, die einmal gelernte Übersetzungen von Phrasen oder Sätzen stumpf reproduzieren. Die Aufgabe des Menschen ist es dann, den Feinschliff zu geben, auf Konsistenz des gesamten Textes zu achten, Wissen über Stilvorgaben, Zielpublikum, Kontext der Übersetzung etc. einzubringen.
Statistische Maschinelle Übersetzung: von phrasenbasierten zu neuronalen Systemen
Datengetriebene Verfahren der Maschinellen Übersetzung (MÜ) gehen hier einen Schritt weiter, indem sie versuchen, zu unbekannten Input-Sätzen basierend auf großen Mengen zuvor gesehener Übersetzungen ganz neue Output-Sätze zu erzeugen, die sie vorher eben noch nicht gesehen haben.
In der Vergangenheit waren die statistischen MÜ-Systeme (gemeinhin als SMT – Statistical Machine Translation bezeichnet) phrasenbasiert. Die wohl bekannteste Implementation ist das Moses-Paket. Das zentrale Modul war so ähnlich aufgebaut wie ein TM, bei dem alle möglichen Übersetzungen der Teilphrasen mit Wahrscheinlichkeiten versehen sind. Vor und nach der Übersetzung von Phrasen und Wörtern fanden verschiedene Schritte wie das Umordnen von Wortketten und das „Glätten“ der Teilübersetzungen zu einem Satz statt. Hierbei mussten verschiedene Module einzeln auf ein- oder zweisprachigen Daten trainiert werden. Das führte im Ergebnis zu erheblichen Reibungsverlusten, da, bildlich gesprochen, die linke Hand oft nicht wusste, was die rechte tat.
Die neueste Klasse von SMT-Systemen sind die sogenannten neuronalen MÜ-Systeme (NMT – Neural Machine Translation). Diese basieren auf einer unlängst wiederentdeckten Art von maschinellem Lernen, bei dem sich künstliche Neuronen in Schichten selbst organisieren. Sie sind angelehnt an die Funktionsweise von Gehirnen, bei denen ja die Vernetzung der Neuronen das Denken und Erinnern ermöglicht. Das Charmante an diesem Ansatz ist, dass die Systeme End-to-End funktionieren und keine weiteren Zwischenmodule benötigen: Man gibt ihnen Quellsätze und Übersetzungen und den Rest erledigen die Systeme allein. Die Übersetzung findet im gesamten Satzkontext statt.
Wie gut sind die NMT-Systeme?
Mit der Umstellung auf die NMT-Systeme haben wir einen drastischen Qualitätssprung erlebt. Hier ein einfaches Beispiel, einmal übersetzt mit Google Translate vor der Umstellung auf neuronale Technologie und einmal direkt danach:
Quelle: | Warum macht der Tourist drei Fotos? |
Referenz: | Why does the tourist take three photos? |
Google Translate (phrasenbasiert): | Why does the tourist three photos? |
Google Translate (neuronal): | Why does the tourist make three photos? |
(https://www.blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/)
Die Schwierigkeit für die alten, phrasenbasierten Systeme liegt hier darin, dass das Verb im Deutschen und Englischen an unterschiedlichen Positionen steht. Dies führte oft dazu, dass das Verb einfach nicht übersetzt wurde, wie im oberen Beispiel. Die neuronalen Systeme mit ihrer Sicht auf den gesamten Satz haben dieses Problem nicht. Auch wenn die Wahl des Verbs noch nicht optimal ist, so ist der Satz doch vollständig und verständlich. Testet man das Beispiel heute, ein halbes Jahr später, noch einmal, stellt man fest, dass inzwischen perfekte Übersetzungen von Google geliefert werden.
Oft werden heute bei den neuronalen Systemen nicht Wörter oder Phrasen als Grundlage der statistischen Modelle genommen, sondern Buchstabengruppen. Dies führt (in seltenen Fällen) dazu, dass die Systeme Wörter einfügen, die auf den ersten Blick völlig unmotiviert scheinen, hier am Beispiel eines NMT-Systems eines Projektpartners:
Quelle: | Die Arbeiter müssten in den sauren Apfel beißen. |
Referenz: | The workers would have to bite the bullet. |
Google Translate (phrasenbasiert): | The workers would have to bite the bullet. |
NMT: | The workers would have to bite into the clean apple. |
Der Grund für die Fehlübersetzung „clean“ ist höchstwahrscheinlich, dass die Worte „sauer“ und „sauber“ intern ähnlich behandelt werden. Wir gehen allerdings davon aus, dass dies Kinderkrankheiten der Systeme sind, die verschwinden werden.
In der Wissenschaft war es bisher üblich, die Übersetzungsqualität durch einen automatischen Vergleich des System-Outputs mit einer Referenzübersetzung zu vergleichen. Dabei kommt meistens der sogenannte BLEU-Score als Messmethode zum Einsatz. Ganz kurz beschrieben, wird hierbei nur gezählt, welche Wörter und Wortfolgen bei der Maschinellen Übersetzung und der Referenzübersetzung identisch sind. Diese Herangehensweise erzeugt als Ergebnis Zahlenwerte, die nicht nur in der Wissenschaft inzwischen immer öfter kritisiert werden, sondern auch Nutzern der Übersetzungen keinerlei Informationen darüber geben, wie gut die Qualität der Systeme ist oder mit welchen Fehlern in den Systemen zu rechnen ist.
Um ein genaues Bild über die Fehler zu bekommen, die die Systeme machen, haben wir in der Vergangenheit am DFKI zusammen mit fortschrittlichen Sprachdienstleistern wie der text & form GmbH und mit Branchenverbänden verschiedene Methoden entwickelt, durch die Sprachexperten detailliertes Feedback geben können. Diese fanden in mehreren Studien Anwendung, in denen wir die unterschiedlichen MÜ-Ansätze verglichen haben.
Sind die NMT-System fit für den Praxiseinsatz?
Eine der Erkenntnisse, die wir aus diesen Studien gewonnen haben, ist, dass es eine gewaltige Qualitätssteigerung bei der Entwicklung von der phrasenbasierten zur neuronalen MÜ gegeben hat und dass die NMT den besten regelbasierten MÜ-Systemen mindestens ebenbürtig ist. Allerdings finden wir auch Fälle, bei denen der gute Lesefluss inhaltliche Fehler verschleiert und es Lektoren oder Post-Editoren schwerer macht, semantische Ungenauigkeiten zu erkennen.
Einen weiteren Vergleich, den wir durchgeführt haben, beleuchtet die Unterschiede zwischen einem domänenspezifisch trainierten Moses-System und einem untrainierten NMT-System. Das überraschende Ergebnis war, dass das NMT-System dem Moses-System in fast jeder Kategorie überlegen war, mit Ausnahme der Kategorien Terminologie und Tag-Verarbeitung. Nach dieser Studie gibt es keinen Grund mehr, an der traditionellen phrasenbasierten Technologie festzuhalten. Auch wenn NMT nicht für alle Anwendungsfälle geeignet ist: Inzwischen ist ein Qualitätsniveau erreicht, das die Produktivität in vielen Übersetzungsszenarios signifikant steigern kann. Ein Post-Editing, also ein Lektorat durch den Übersetzer, ist aber nach wie vor erforderlich – auch für die Sammlung von Daten, anhand derer die MÜ-Engines optimiert werden können.
Fünf Mythen über NMT – und wie Sie sie auf der nächsten Cocktail-Party ganz schnell entzaubern
NMT funktioniert wie ein menschliches Gehirn.
Die neuronalen Netzwerke sind von den neuronalen Verbindungen im menschlichen Gehirn Die Wissenschaft ist jedoch noch weit davon entfernt, die genauen Funktionsweisen eines Gehirns zu verstehen, geschweige denn nachbauen und in eine Maschine implementieren zu können.
NMT-Systeme sind der Beweis, dass Computer jetzt in die letzten Domänen vordringen, die bislang dem Menschen vorbehalten waren: Kreativität und Intelligenz.
Nun ja, man kann sich die Kreativität von Systemen so vorstellen wie die von Papageien. Sie können beispielsweise einen hübschen Reim produzieren, indem sie uns imitieren, aber sie sind nicht in der Lage, sich einen Witz auszudenken, eine Metapher zu verwenden oder eine Pointe für eine Marketingkampagne zu ersinnen. All das kann nach wie vor nur ein Mensch.
Wir haben eine gläserne Decke bei der Qualitätsverbesserung von MÜ erreicht.
Das stimmt so nicht. Es gehören immer zwei dazu. Technologie kann besser werden, wenn sie produktiv eingesetzt wird und Experten ihr Feedback dazu geben. Wir haben verschiedene Methoden skizziert, die diesen Dialog vereinfachen können.
Maschinelle Übersetzung kostet Jobs.
Zwar kann über diese These nur spekuliert werden, aber solche Vorhersagen sind seit der Einführung von PC in den 1990er-Jahren immer wieder gemacht worden – und haben sich nicht bewahrheitet. Viele Jobs haben sich seither geändert, und viele werden sich in Zukunft verändern. Multimediaübersetzer erhalten ihr Material nicht mehr auf VHS-Kassetten, die von Boten gebracht werden (immer zu spät übrigens). Sie schreiben ihre Untertitel auch nicht mehr auf mechanischen Schreibmaschinen. Die Aufgabe als solche gibt es aber immer noch. Fest steht: Effizientere Übersetzungstechnologien werden in Zukunft helfen, den durch Globalisierung und Migration dramatisch gestiegenen Bedarf an Übersetzungen zu bewältigen – und zu vereinfachen.
Regelbasierte maschinelle Übersetzung ist veraltet.
Zu den Vorteilen der regelbasierten MÜ zählen eine gute Kontrolle über stilistische Aspekte, über Terminologie u. v. m. Wir sind davon überzeugt, dass intelligente hybride Systeme besser sind als eine einzelne MÜ-Technologie. Deshalb sollte der Ansatz, Trainingskorpora für NMT-Systeme mithilfe regelbasierter MÜ-Systeme zu generieren, in jedem Fall weiterverfolgt werden. Es gibt noch viel zu erforschen auf diesem Gebiet.
Kurz zusammengefasst
Kurz gesagt: Es sind spannende Zeiten im Bereich der künstlichen Intelligenz und der Verarbeitung natürlicher Sprache, sowohl für Wissenschaftler als auch für die Geschäftsentwicklung in den digitalisierten und globalisierten Märkten.
Das Deutsche Institut für Künstliche Intelligenz (DFKI) ist eine Non-Profit-PPP (Public Private Partnership), und das Leitmotiv am DFKI in Berlin orientiert sich an einer künstlichen Intelligenz, die den Menschen in den Fokus rückt. Anders ausgedrückt: Jede von uns durchgeführte Studie soll dazu beitragen, das Leben, den Arbeitsplatz, die medizinische Versorgung zu verbessern und der Bewältigung gesellschaftlicher Herausforderungen dienen. Es ist unser Ziel, die menschliche Kommunikation mit unserer Forschung zu verbessern und zu vereinfachen.
ÜBER DEN AUTOR
Aljoscha Burchardt ist Lab Manager beim Language Technology Lab des Deutschen Forschungsinstituts für Künstliche Intelligenz (DFKI GmbH). Er ist Experte auf dem Gebiet der Künstlichen Intelligenz und der Sprachtechnologie. Sein Forschungsschwerpunkt liegt auf der Evaluierung der (maschinellen) Übersetzungsqualität, und die Einbindung von Übersetzungs- und Sprachexperten in den Entwicklungs-Workflow bei der MÜ-Forschung ist ihm ein wichtiges Anliegen. Burchardt ist Co-Entwickler der MQM-Metrik für die Messung der Übersetzungsqualität. Sein Studienschwerpunkt lag auf dem Gebiet der semantischen Sprachtechnologie. Nach seiner Promotion in Computerlinguistik an der Universität des Saarlands koordinierte er das Center of Research Excellence „E-Learning 2.0“ an der Technischen Universität Darmstadt.