Warum gerade DeepL und ChatGPT?
Unter den zahlreichen verfügbaren maschinellen Übersetzungsdiensten, die auf künstlicher Intelligenz (KI) basieren, ragen DeepL und ChatGPT als führende Systeme heraus. Während DeepL schon mehrere Jahre mit maschineller Übersetzung auf dem Markt verfügbar ist, handelt es sich bei ChatGPT um ein Large Language Model, das maschinelle Texte produzieren kann, unter anderem Übersetzungen.
Ein kurzer Überblick zu den beiden maschinellen Übersetzungssystemen:
DeepL hat sich schnell zu einem führenden Anbieter von Übersetzungstechnologien entwickelt, der auf künstlicher Intelligenz und neuronalen Netzen basiert. Das System wird mit großen, aus dem Internet verfügbaren Textmengen trainiert und wirbt auf der eigenen Website damit, präziser als seine Konkurrenz übersetzen zu können. DeepL kann in 30 Sprachen übersetzen1.
ChatGPT hat sich in den vergangenen zwei Jahren zu einem führenden Instrument für natürlich anmutende Sprachverarbeitung und Dialogsysteme entwickelt und trägt zur Konversations-KI-Revolution bei. Mit der Möglichkeit, maschinelle Übersetzungen erstellen zu können, macht ChatGPT sich auch in der Übersetzungsbranche bemerkbar.
Der Prozess des Prompt Engineerings spielt eine entscheidende Rolle. Es geht darum, ChatGPT mit den richtigen Fragen zu lenken, damit es einen Output liefert, der den Erwartungen entspricht. Alles rund um das Thema Prompt-Engineering finden Sie hier.
Trotz der Versprechen der Maschinenübersetzungssysteme, Effizienz und Genauigkeit zu liefern, bleiben Fragen hinsichtlich ihrer Leistungsfähigkeit offen, insbesondere, wenn die Übersetzungen nicht nur informieren, sondern verkaufen sollen. Hauptkritikpunkte der maschinellen Übersetzung sind seit jeher:
– Qualitätsschwankungen im Output
– Inkonsistenzen
– die (Un)möglichkeit der freien Übersetzung.
Positive Aspekte der maschinellen Übersetzung mit DeepL oder ChatGPT
- Auf den ersten Blick sind die Übersetzungen aus den beiden maschinellen Systemen DeepL und ChatGPT erstaunlich verständlich und wirken wie ein eigenständig funktionierender Text.
- Die KI scheint nur das zu übersetzen, was im Original steht. Bei anderen Aufgaben fängt eine KI gern an, Sachen frei zu erfinden. Dieses Halluzinieren kommt beim Übersetzen praktisch nicht vor.
- Unsere internen Tests haben keinerlei negative Auffälligkeiten im Hinblick auf falsche Schreibweisen, leichte Tippfehler oder Ähnliches ergeben.
- Wiederkehrende Textpassagen wurden konsistent übersetzt, das heißt, es wurden keine Synonyme oder abweichenden Satzstrukturen verwendet. Der gleiche Satz wurde also immer gleich übersetzt.
- Beide Systeme verwenden die korrekte Subsprache. So wird im US-Englischen „color“ ohne u geschrieben, während im britischen Englisch die Schreibweise „colour“ genutzt wird.
Wie kreativ kann maschinelle Übersetzung mit ChatGPT oder DeepL sein?
Strukturell liefern also beide Systeme erwartbar gute Ergebnisse. Doch wie hat sich das kreative Potenzial mit dem technischen Fortschritt entwickelt? Fakt ist, dass die maschinelle Übersetzung der Humanübersetzung unterlegen ist, wenn es um kreative Formulierungen geht. Ein Mensch liest und versteht einen Satz und kann ihn in der Zielkultur entsprechend wiedergeben, bestimmte Nuancen hinzufügen oder den Stil nach Kundenwunsch ändern – er kann frei übersetzen.
Die maschinelle Übersetzung ist hingegen weniger flexibel und orientiert sich an den gegebenen Begriffen und Satzbauteilen in der Ausgangssprache. Eine Übersetzung zu nah am Ausgangstext wirkt oft nicht wie natürliche Sprache. Das ist im folgenden Beispiel zu erkennen: Die Humanübersetzung klingt verständlich, weil Sinneinheiten wiedergegeben wurden. Die Maschine hingegen hat Wort für Wort übersetzt, was den englischen Satz unnatürlich und weniger verständlich macht.
DE | Baugruppe „Magnetventil vollständig inklusive Filter“ 0000 000 bestellen. |
Human | Order the “Complete solenoid valve including filter” assembly unit 0000 000. |
DeepL | Order assembly "Solenoid valve complete including filter" 0000 000. |
Bei einem Test mit mehr Kontext haben wir jedoch auch beobachtet, dass das System „verstehen“ und bei Bedarf grammatikalische Umformulierungen entsprechend der Zielsprache vornehmen kann. DeepL hat in einem Satz mit mehreren Bestandteilen den deutschen Satzbau nicht stoisch übertragen. Hier wurde ein Adjektivattribut, also eine Beschreibung des Substantives, in einen Relativsatz umgewandelt. Das bedeutet, dass hier keine Eins-zu-eins-Übersetzung stattgefunden hat:
DE | … von der europaweit tätigen Firma … |
ChatGPT | … by the Europe-wide active company … |
DeepL | ..., which operates throughout Europe. |
Kreative Übersetzung gesucht?
Wir helfen weiter! Rufen Sie uns unter +49 7502 9449 - 260 an oder senden Sie uns Ihre Anfrage.
Grundlegende Fehler bei der maschinellen Übersetzung mit DeepL oder ChatGPT
Trotz der fortgeschrittenen Entwicklung der maschinellen Übersetzung machen sowohl ChatGPT als auch DeepL noch einige Fehler. Bei DeepL ist in unseren Tests mehrmals aufgefallen, dass vereinzelt Begriffe nicht übersetzt wurden. Teils war es ein einziger Begriff in einem längeren Satz, manchmal aber auch ein alleinstehender Begriff in einer Tabelle, der im Text schon mehrmals vorgekommen war und nur an dieser einen Stelle nicht übersetzt wurde. Solche Fehler sind nicht voraussehbar und treten inkonsistent auf.
Bei ChatGPT hatten wir den Fall, dass in der italienischen Übersetzung ein Adjektiv ins Englische übersetzt wurde, obwohl die englische Bezeichnung in der Zielsprache nicht gängig ist.
Ein weiterer Fehler, der in unseren Tests konsistent sowohl bei DeepL als auch bei ChatGPT aufgefallen ist, betrifft die Verwendung von Anführungszeichen und Apostrophen. Bei den Outputs beider Systeme haben wir beobachtet, dass die korrekten Anführungszeichen (z. B. Deutsch: „“, Englisch: “”) nicht verwendet werden. Die Systeme benutzen Zollstriche.
Dieser Fehler ist gerade deshalb unverständlich, weil jede brauchbare Textverarbeitung die Zollzeichen zuverlässig und fehlerfrei in die richtigen typografischen Anführungszeichen jeder Sprache umwandelt. Dasselbe gilt für den geraden Strich anstelle des geschwungenen Apostrophs. DeepL und ChatGPT verwenden unbeeindruckt die falschen Zeichen. Lediglich im Französischen beherrscht ChatGPT die klassischen Guillemets, während das bei DeepL nicht der Fall ist.
Verwendung von Sonderzeichen:
Sonderzeichen | Anführungszeichen oben in Englisch (“”) | Guillemets in Französisch («») | Apostroph (’) |
ChatGPT | x | ✔ | x |
DeepL | x | x | x |
Darüber hinaus haben wir festgestellt, dass die Übertragung von Wörtern in Großbuchstaben im Zieltext nicht korrekt funktioniert. In allen drei Sprachen – Englisch, Französisch und Italienisch – war die Umsetzung inkonsistent, da die betreffenden Übersetzungen entweder nicht in Versalien geschrieben wurden oder viel mehr Begriffe in Versalien standen als im Ausgangstext.
Terminologische Konsistenz bei KI-Systemen
Im Hinblick auf die konsistente Verwendung der kundenspezifischen Fachwörter (Terminologie) gibt es sowohl positive als auch negative, aber auch bedenkliche Aspekte. In unseren Tests in beiden Systemen haben wir festgestellt, dass die Verwendung von einheitlichen Begriffen innerhalb des Textes teilweise gegeben ist. Natürlich nur dann, wenn die KI Vorgaben bekommt. Ohne ein konkretes Wörterbuch wechseln die Systeme ständig und nutzen Synonyme.
An vereinzelten Stellen kam es jedoch trotz klarer Anweisung zu Uneinheitlichkeiten (beispielsweise hat DeepL teilweise die Vorgabe ignoriert, dass ein bestimmter Term unübersetzt bleiben soll). In einem unserer Tests in drei Sprachen kam es nur einmal vor, dass sich die KI komplett an die Vorgaben gehalten hat. Im schlimmsten Fall wurde ein Viertel der Termvorgaben einfach nicht angewendet.
Das folgende Diagramm zeigt, dass in einer weiteren Testreihe in keiner der drei geprüften Sprachen alle Terme konsistent verwendet wurden.
Die Qualität aller Ergebnisse von ChatGPT hängt immer davon ab, dass die KI bestmöglich angewiesen wird. Prompt Engineering nutzen wir bei allen unseren Tests. Ins Dialogfeld geben wir ein, welche Terminologie für den Text genutzt werden muss und justieren bedarfsweise nach.
Der Umgang mit Fehlern im Ausgangstext
Es ist äußerst interessant zu beobachten, wie die KI mit kleineren Fehlern im Ausgangstext umgeht, beispielsweise Tippfehlern oder falscher Zeichensetzung. Es stellt sich die Frage, ob die Begriffe möglicherweise gar nicht übersetzt oder missverstanden werden.
In einem unserer Tests, der in drei Sprachen durchgeführt wurde, gab es einen Tippfehler in einem Begriff, der in der entsprechenden Branche bekannt ist. Der Löschroboter „Colossus“ wurde im Ausgangstext fälschlicherweise mit zwei l geschrieben, also „Collossus“. In nur einer Übersetzung (Französisch von ChatGPT) bei zwei KI-Systemen für drei Sprachen wurde der Tippfehler nicht in die Zielsprache übertragen. Das zeigt, dass die Verwendung von ChatGPT, wenn auch in seltenen Fällen, zu einer Korrektur des Ausgangstextes führen kann.
Korrektur des Tippfehlers im Ausgangstext:
EN | FR | IT | |
ChatGPT | x | ✔ | x |
DeepL | x | x | x |
Die Qualität des Ausgangstextes ist für die Qualität des KI-Outputs von entscheidender Bedeutung. Bei größeren Fehlern wie falscher Begriffsverwendung oder grundlegenden inhaltlichen Fehlern ist die Maschine überfordert. Ein Mensch hingegen ist eher in der Lage, einen Ausgangstextfehler zu erkennen und kann diesen mit dem Kunden vor Lieferung abklären (mehr zum Pre-Editing).
Ein direkter Vergleich von DeepL und ChatGPT
In dieser Tabelle sind die oben aufgeführten Erkenntnisse kurz und knapp für einen direkten Vergleich beider Systeme gegenübergestellt:
DeepL | ChatGPT | |
Vollständigkeit (keine Hinzufügungen oder Auslassungen) | ✔ | ✔ |
Rechtschreibung | ✔ | ✔ |
Korrekte Übersetzung bei kleineren Tippfehlern | ✔ | ✔ |
Konsistenz von wiederkehrenden Textstellen | ✔ | ✔ |
Erkennung der Subsprache US-Englisch | ✔ | ✔ |
Transkreation von Slogans und Claims | x | x |
Übersetzung aller vorgegebenen Fachbegriffe in die korrekte Zielsprache | x | x |
Korrekte Verwendung von Sonderzeichen | x | x |
Korrekte Verwendung von Versalien | x | x |
Einhaltung des Corporate Wordings | x | x |
Anpassung von Tippfehlern in Fachbegriffen | x | x* |
Korrekte Übertragung eines englischen Produktnamens | ✔ | x |
Bekannte Abkürzung korrekt übertragen | ✔ | x |
Unbekannte Abkürzung korrekt übertragen | x | x |
*Wurde in nur einer von drei Sprachen maschinell korrigiert
Diese Übersicht zeigt, dass es bei beiden Systemen einige Parallelen gibt. In der Gesamtbetrachtung erzielt DeepL ein um zwei Kriterien besseres Ergebnis als ChatGPT.
Fazit und Empfehlungen für die Zukunft
DeepL und ChatGPT machen im ersten Moment einen funktionstüchtigen Eindruck, doch bei näherer Betrachtung zeigen sich einige Aspekte, die die Qualität der Übersetzung negativ beeinflussen. Fehlerquote und Inkonsistenz sind zumindest für Marketingtexte ein Ausschlusskriterium. Auch bei Inhalten, die nicht den höchsten Anspruch an Formulierung und Stil stellen, ist es unerlässlich, einen professionellen Blick auf den KI-Output werfen zu lassen. Korrekturen von grundsätzlichen Fehlern, Anpassungen an kulturelle Eigenheiten, freiere Übersetzungen oder die Korrektur von Inkonsistenzen können letztendlich nur durch menschliche Interaktion gelingen.
Wir bieten Humanübersetzungen für höchste Anforderungen an Sprache und Stil und KI-Übersetzung mit Full-Post-Editing durch eine humane Fachkraft an, die sowohl die Terminologie anpasst, als auch Fehler der KI beseitigt (genauere Informationen zum Post-Editing finden Sie in unserem Blogbeitrag).
Maschinelle Übersetzungslösungen sind insbesondere für technische Textsorten eine gute Wahl, da hier keine Kreativität gefordert ist. Dann ist vor allem die Qualität der Originaltexte wichtig. Denn bereits geringfügige Tippfehler im Original bergen die Gefahr, dass die KI die Inhalte falsch versteht und die falsche Übersetzung konsistent vervielfältigt.
Die Terminologiekonsistenz ist ein weiterer Aspekt, der die Qualität des KI-Outputs bestimmt. Weder DeepL noch ChatGPT schaffen es, Begriffe konsistent zu übersetzen. Der Mensch versteht fach- oder kundenspezifische Terme wie englische Produktnamen, die nicht übersetzt werden sollen. Der Maschine fehlt dieses Verständnis. Wir empfehlen, die Terminologiedatenbank durch Profis mit Produktnamen und Abkürzungen erweitern zu lassen, damit die Systeme die richtige Terminologie verwenden. Das verbessert das KI-Ergebnis deutlich. Jedoch ist die durchgängige Verwendung der Terme trotz dessen nicht garantiert, wie in den Tests mit ChatGPT und DeepL zu erkennen war.
Wir halten fest, dass Italienisch unter den drei Testsprachen die meisten Fehler vorzuweisen hatte, während es im Englischen am wenigsten Fehler gab. Dieses Ergebnis lässt darauf schließen, dass für Italienisch nicht die gleiche Menge an Daten für das Training der jeweiligen KI vorhanden war wie im Englischen. Folglich ist zu vermuten, dass andere, international weniger genutzte Sprachen sogar noch anfälliger für Fehler sein werden, da die Datenmenge beim Training der KI ausschlaggebend ist. Die Verwendung der maschinellen Übersetzung ohne Full-Post-Editing bei unbekannteren Sprachen könnte daher fatal sein.
Die in diesem Whitepaper gewonnenen Erkenntnisse über die Qualität der maschinellen Übersetzung sind kein allgemeingültiger Standard. Weitere Tests und die Entwicklung der KI können zu einem anderen Zeitpunkt zu anderen Ergebnissen führen. Diese Willkür der maschinellen Übersetzung belegt die Notwendigkeit eines Profis, dem human in the loop, um eine qualitativ hochwertige Übersetzung zu gewährleisten.
Maschinelle Übersetzung ist alles andere als perfekt, aber sie entwickelt sich rasant weiter. Richtig eingesetzt ist die KI eine Hilfe, aber sie allein reicht nicht. Die Qualitätsansprüche in der Übersetzungsbranche können nur mit sprachlichen Profis erfüllt werden.
Warum können wir das bewerten?
Wir sind Übersetzungsbüro und Sprachdienstleister. Mit von Menschen erstellten Übersetzungen beschäftigen wir uns seit mehr als 30 Jahren.
Wir behaupten uns in einem der umkämpftesten Wirtschaftsbereiche, weil wir die beste Technik so einsetzen, dass unsere Kundinnen und Kunden den größten Nutzen haben. Deshalb setzen wir die aktuellen KI-Übersetzungsdienste nicht nur ein, sondern entwickeln eigene Messverfahren, um die Entwicklung der Qualität zu beobachten.
Als Übersetzungsdienstleister beschäftigen wir uns neben der von Menschen generierten Übersetzung mit der aktuellen Entwicklung der Übersetzungsbranche und setzen uns aktiv mit der maschinellen Übersetzung auseinander.
Maschinelle Übersetzung in gesicherter Umgebung testen?
Rufen Sie uns unter +49 7502 9449 - 260 an oder senden Sie uns Ihre Anfrage.