Il Prompting a Catena di Dizionari Stimola la Traduzione nei Modelli Linguistici di Grande Dimensione
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models
May 11, 2023
Autori: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni sorprendentemente buone nella traduzione automatica neurale multilingue (MNMT) anche quando addestrati senza dati paralleli. Tuttavia, nonostante l'enorme quantità di dati di addestramento, continuano a incontrare difficoltà nella traduzione di parole rare, in particolare per le lingue con risorse limitate. Ancora peggio, è solitamente irrealistico recuperare dimostrazioni rilevanti per l'apprendimento in contesto con lingue a bassa risorsa sugli LLM, il che limita l'uso pratico degli LLM per la traduzione. Come possiamo mitigare questo problema? A tal fine, presentiamo un metodo innovativo, CoD, che potenzia gli LLM con conoscenze pregresse utilizzando catene di dizionari multilingue per un sottoinsieme di parole di input per stimolare le capacità di traduzione degli LLM. Esperimenti estensivi indicano che potenziare ChatGPT con CoD produce miglioramenti significativi fino a 13 punti ChrF++ per la MNMT (da 3.08 a 42.63 per la traduzione dall'inglese al serbo scritto in alfabeto cirillico) sul set completo di sviluppo FLORES-200. Dimostriamo inoltre l'importanza di concatenare i dizionari multilingue, nonché la superiorità di CoD rispetto alle dimostrazioni few-shot per le lingue a bassa risorsa.
English
Large language models (LLMs) have shown surprisingly good performance in
multilingual neural machine translation (MNMT) even when trained without
parallel data. Yet, despite the fact that the amount of training data is
gigantic, they still struggle with translating rare words, particularly for
low-resource languages. Even worse, it is usually unrealistic to retrieve
relevant demonstrations for in-context learning with low-resource languages on
LLMs, which restricts the practical use of LLMs for translation -- how should
we mitigate this problem? To this end, we present a novel method, CoD, which
augments LLMs with prior knowledge with the chains of multilingual dictionaries
for a subset of input words to elicit translation abilities for LLMs. Extensive
experiments indicate that augmenting ChatGPT with CoD elicits large gains by up
to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in
Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the
importance of chaining the multilingual dictionaries, as well as the
superiority of CoD to few-shot demonstration for low-resource languages.