ChatPaper.aiChatPaper

El Prompting de Cadena de Diccionarios Induce Traducción en Modelos de Lenguaje a Gran Escala

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

May 11, 2023
Autores: Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sorprendentemente bueno en traducción automática neuronal multilingüe (MNMT), incluso cuando se entrenan sin datos paralelos. Sin embargo, a pesar de que la cantidad de datos de entrenamiento es gigantesca, todavía tienen dificultades para traducir palabras raras, particularmente en idiomas de bajos recursos. Peor aún, generalmente no es realista recuperar demostraciones relevantes para el aprendizaje en contexto con idiomas de bajos recursos en LLMs, lo que limita el uso práctico de estos modelos para la traducción. ¿Cómo deberíamos mitigar este problema? Con este fin, presentamos un método novedoso, CoD, que aumenta los LLMs con conocimiento previo mediante cadenas de diccionarios multilingües para un subconjunto de palabras de entrada, con el fin de potenciar las habilidades de traducción de los LLMs. Experimentos extensos indican que aumentar ChatGPT con CoD produce mejoras significativas de hasta 13 puntos ChrF++ en MNMT (de 3.08 a 42.63 para traducciones del inglés al serbio escrito en alfabeto cirílico) en el conjunto completo de pruebas FLORES-200. Además, demostramos la importancia de encadenar los diccionarios multilingües, así como la superioridad de CoD frente a las demostraciones de pocos ejemplos para idiomas de bajos recursos.
English
Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
PDF20December 15, 2024