Chain-of-Dictionary-Prompting fördert Übersetzungen in großen Sprachmodellen.
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models
May 11, 2023
Autoren: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben überraschend gute Leistungen in der mehrsprachigen neuronalen maschinellen Übersetzung (MNMT) gezeigt, selbst wenn sie ohne parallele Daten trainiert wurden. Dennoch haben sie trotz der gigantischen Menge an Trainingsdaten Schwierigkeiten, seltene Wörter zu übersetzen, insbesondere bei ressourcenarmen Sprachen. Noch problematischer ist, dass es in der Regel unrealistisch ist, relevante Demonstrationen für In-Context-Learning mit ressourcenarmen Sprachen auf LLMs abzurufen, was die praktische Anwendung von LLMs für Übersetzungen einschränkt – wie können wir dieses Problem lösen? Zu diesem Zweck stellen wir eine neue Methode vor, CoD, die LLMs mit Vorwissen durch Ketten mehrsprachiger Wörterbücher für eine Teilmenge der Eingabewörter anreichert, um die Übersetzungsfähigkeiten von LLMs zu fördern. Umfangreiche Experimente zeigen, dass die Anreicherung von ChatGPT mit CoD erhebliche Verbesserungen von bis zu 13x ChrF++-Punkten für MNMT (3,08 bis 42,63 für Englisch zu Serbisch in kyrillischer Schrift) auf dem FLORES-200 Full Devtest-Set bewirkt. Wir demonstrieren weiterhin die Bedeutung der Verkettung mehrsprachiger Wörterbücher sowie die Überlegenheit von CoD gegenüber Few-Shot-Demonstrationen für ressourcenarme Sprachen.
English
Large language models (LLMs) have shown surprisingly good performance in
multilingual neural machine translation (MNMT) even when trained without
parallel data. Yet, despite the fact that the amount of training data is
gigantic, they still struggle with translating rare words, particularly for
low-resource languages. Even worse, it is usually unrealistic to retrieve
relevant demonstrations for in-context learning with low-resource languages on
LLMs, which restricts the practical use of LLMs for translation -- how should
we mitigate this problem? To this end, we present a novel method, CoD, which
augments LLMs with prior knowledge with the chains of multilingual dictionaries
for a subset of input words to elicit translation abilities for LLMs. Extensive
experiments indicate that augmenting ChatGPT with CoD elicits large gains by up
to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in
Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the
importance of chaining the multilingual dictionaries, as well as the
superiority of CoD to few-shot demonstration for low-resource languages.