Цепочка словарных подсказок стимулирует перевод в крупных языковых моделях.
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models
May 11, 2023
Авторы: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют удивительно высокую производительность в задачах многоязычного нейронного машинного перевода (MNMT), даже когда обучаются без параллельных данных. Однако, несмотря на огромный объем обучающих данных, они по-прежнему испытывают трудности с переводом редких слов, особенно для языков с ограниченными ресурсами. Более того, зачастую нереалистично извлекать релевантные примеры для обучения в контексте для таких языков на LLM, что ограничивает практическое применение LLM для перевода. Как можно смягчить эту проблему? В этой работе мы представляем новый метод CoD, который дополняет LLM предварительными знаниями, используя цепочки многоязычных словарей для подмножества входных слов, чтобы активировать способности LLM к переводу. Многочисленные эксперименты показывают, что дополнение ChatGPT методом CoD приводит к значительному улучшению результатов — до 13 баллов по метрике ChrF++ для MNMT (с 3.08 до 42.63 для перевода с английского на сербский, написанный кириллицей) на полном тестовом наборе FLORES-200. Мы также демонстрируем важность использования цепочек многоязычных словарей, а также превосходство CoD над обучением с несколькими примерами для языков с ограниченными ресурсами.
English
Large language models (LLMs) have shown surprisingly good performance in
multilingual neural machine translation (MNMT) even when trained without
parallel data. Yet, despite the fact that the amount of training data is
gigantic, they still struggle with translating rare words, particularly for
low-resource languages. Even worse, it is usually unrealistic to retrieve
relevant demonstrations for in-context learning with low-resource languages on
LLMs, which restricts the practical use of LLMs for translation -- how should
we mitigate this problem? To this end, we present a novel method, CoD, which
augments LLMs with prior knowledge with the chains of multilingual dictionaries
for a subset of input words to elicit translation abilities for LLMs. Extensive
experiments indicate that augmenting ChatGPT with CoD elicits large gains by up
to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in
Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the
importance of chaining the multilingual dictionaries, as well as the
superiority of CoD to few-shot demonstration for low-resource languages.