ChatPaper.aiChatPaper

No todos los idiomas son iguales en los LLM: Mejora de la capacidad multilingüe mediante indicaciones de pensamiento cruzado entre lenguas.

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

May 11, 2023
Autores: Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una capacidad multilingüe impresionante, pero su rendimiento varía sustancialmente entre diferentes idiomas. En este trabajo, presentamos un método simple pero efectivo, denominado "cross-lingual-thought prompting" (XLT), para mejorar sistemáticamente la capacidad multilingüe de los LLMs. Específicamente, XLT es una plantilla de instrucción genérica que estimula habilidades de razonamiento lógico y multilingüe para mejorar el rendimiento en tareas en varios idiomas. Realizamos evaluaciones exhaustivas en 7 benchmarks típicos relacionados con tareas de razonamiento, comprensión y generación, cubriendo tanto idiomas de alta como de baja disponibilidad de recursos. Los resultados experimentales muestran que XLT no solo mejora notablemente el rendimiento en diversas tareas multilingües, sino que también reduce significativamente la brecha entre el rendimiento promedio y el mejor rendimiento de cada tarea en diferentes idiomas. Destacablemente, XLT aporta una mejora promedio de más de 10 puntos en tareas de razonamiento aritmético y de respuesta a preguntas de dominio abierto.
English
Large language models (LLMs) demonstrate impressive multilingual capability, but their performance varies substantially across different languages. In this work, we introduce a simple yet effective method, called cross-lingual-thought prompting (XLT), to systematically improve the multilingual capability of LLMs. Specifically, XLT is a generic template prompt that stimulates cross-lingual and logical reasoning skills to enhance task performance across languages. We conduct comprehensive evaluations on 7 typical benchmarks related to reasoning, understanding, and generation tasks, covering both high-resource and low-resource languages. Experimental results show that XLT not only remarkably enhances the performance of various multilingual tasks but also significantly reduces the gap between the average performance and the best performance of each task in different languages. Notably, XLT brings over 10 points of average improvement in arithmetic reasoning and open-domain question-answering tasks.
PDF10December 15, 2024