A Cadeia de Dicionários como Prompt Induz Tradução em Modelos de Linguagem de Grande Escala
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models
May 11, 2023
Autores: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho surpreendentemente bom em tradução neural automática multilingue (MNMT), mesmo quando treinados sem dados paralelos. No entanto, apesar da quantidade gigantesca de dados de treinamento, eles ainda enfrentam dificuldades ao traduzir palavras raras, especialmente em idiomas de baixos recursos. Pior ainda, geralmente é irrealista recuperar demonstrações relevantes para aprendizado em contexto com idiomas de baixos recursos em LLMs, o que restringe o uso prático desses modelos para tradução — como podemos mitigar esse problema? Para isso, apresentamos um método novo, CoD, que aumenta os LLMs com conhecimento prévio por meio de cadeias de dicionários multilingues para um subconjunto de palavras de entrada, a fim de elicitar habilidades de tradução nos LLMs. Experimentos extensivos indicam que aumentar o ChatGPT com CoD resulta em ganhos significativos de até 13 pontos ChrF++ em MNMT (de 3,08 para 42,63 no caso de inglês para sérvio escrito em alfabeto cirílico) no conjunto completo de testes FLORES-200. Além disso, demonstramos a importância de encadear os dicionários multilingues, bem como a superioridade do CoD em relação a demonstrações few-shot para idiomas de baixos recursos.
English
Large language models (LLMs) have shown surprisingly good performance in
multilingual neural machine translation (MNMT) even when trained without
parallel data. Yet, despite the fact that the amount of training data is
gigantic, they still struggle with translating rare words, particularly for
low-resource languages. Even worse, it is usually unrealistic to retrieve
relevant demonstrations for in-context learning with low-resource languages on
LLMs, which restricts the practical use of LLMs for translation -- how should
we mitigate this problem? To this end, we present a novel method, CoD, which
augments LLMs with prior knowledge with the chains of multilingual dictionaries
for a subset of input words to elicit translation abilities for LLMs. Extensive
experiments indicate that augmenting ChatGPT with CoD elicits large gains by up
to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in
Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the
importance of chaining the multilingual dictionaries, as well as the
superiority of CoD to few-shot demonstration for low-resource languages.