No todos los idiomas son iguales en los LLM: Mejora de la capacidad multilingüe mediante indicaciones de pensamiento cruzado entre lenguas.
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting
May 11, 2023
Autores: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una capacidad multilingüe impresionante, pero su rendimiento varía sustancialmente entre diferentes idiomas. En este trabajo, presentamos un método simple pero efectivo, denominado "cross-lingual-thought prompting" (XLT), para mejorar sistemáticamente la capacidad multilingüe de los LLMs. Específicamente, XLT es una plantilla de instrucción genérica que estimula habilidades de razonamiento lógico y multilingüe para mejorar el rendimiento en tareas en varios idiomas. Realizamos evaluaciones exhaustivas en 7 benchmarks típicos relacionados con tareas de razonamiento, comprensión y generación, cubriendo tanto idiomas de alta como de baja disponibilidad de recursos. Los resultados experimentales muestran que XLT no solo mejora notablemente el rendimiento en diversas tareas multilingües, sino que también reduce significativamente la brecha entre el rendimiento promedio y el mejor rendimiento de cada tarea en diferentes idiomas. Destacablemente, XLT aporta una mejora promedio de más de 10 puntos en tareas de razonamiento aritmético y de respuesta a preguntas de dominio abierto.
English
Large language models (LLMs) demonstrate impressive multilingual capability,
but their performance varies substantially across different languages. In this
work, we introduce a simple yet effective method, called cross-lingual-thought
prompting (XLT), to systematically improve the multilingual capability of LLMs.
Specifically, XLT is a generic template prompt that stimulates cross-lingual
and logical reasoning skills to enhance task performance across languages. We
conduct comprehensive evaluations on 7 typical benchmarks related to reasoning,
understanding, and generation tasks, covering both high-resource and
low-resource languages. Experimental results show that XLT not only remarkably
enhances the performance of various multilingual tasks but also significantly
reduces the gap between the average performance and the best performance of
each task in different languages. Notably, XLT brings over 10 points of average
improvement in arithmetic reasoning and open-domain question-answering tasks.