L'incitation en chaîne de dictionnaires suscite la traduction dans les grands modèles de langage.
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models
May 11, 2023
Auteurs: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des performances étonnamment bonnes en traduction neuronale multilingue (MNMT), même lorsqu'ils sont entraînés sans données parallèles. Cependant, malgré la quantité gigantesque de données d'entraînement, ils éprouvent encore des difficultés à traduire des mots rares, en particulier pour les langues à faibles ressources. Pire encore, il est généralement irréaliste de récupérer des démonstrations pertinentes pour l'apprentissage en contexte avec des langues à faibles ressources sur les LLMs, ce qui limite l'utilisation pratique des LLMs pour la traduction — comment devrions-nous atténuer ce problème ? À cette fin, nous présentons une nouvelle méthode, CoD, qui enrichit les LLMs avec des connaissances préalables en utilisant des chaînes de dictionnaires multilingues pour un sous-ensemble de mots d'entrée afin de susciter des capacités de traduction chez les LLMs. Des expériences approfondies indiquent que l'enrichissement de ChatGPT avec CoD suscite des gains importants, allant jusqu'à 13 points ChrF++ pour la MNMT (de 3,08 à 42,63 pour l'anglais vers le serbe écrit en alphabet cyrillique) sur l'ensemble complet de devtest de FLORES-200. Nous démontrons en outre l'importance de chaîner les dictionnaires multilingues, ainsi que la supériorité de CoD par rapport à la démonstration en few-shot pour les langues à faibles ressources.
English
Large language models (LLMs) have shown surprisingly good performance in
multilingual neural machine translation (MNMT) even when trained without
parallel data. Yet, despite the fact that the amount of training data is
gigantic, they still struggle with translating rare words, particularly for
low-resource languages. Even worse, it is usually unrealistic to retrieve
relevant demonstrations for in-context learning with low-resource languages on
LLMs, which restricts the practical use of LLMs for translation -- how should
we mitigate this problem? To this end, we present a novel method, CoD, which
augments LLMs with prior knowledge with the chains of multilingual dictionaries
for a subset of input words to elicit translation abilities for LLMs. Extensive
experiments indicate that augmenting ChatGPT with CoD elicits large gains by up
to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in
Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the
importance of chaining the multilingual dictionaries, as well as the
superiority of CoD to few-shot demonstration for low-resource languages.