¿Podría el pensamiento multilingüe potenciar el razonamiento de los modelos de lenguaje grandes?
Could Thinking Multilingually Empower LLM Reasoning?
April 16, 2025
Autores: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI
Resumen
Trabajos previos indican que los modelos de lenguaje grandes exhiben un
"sesgo hacia el inglés", es decir, suelen desempeñarse mejor cuando las tareas
se presentan en inglés. Curiosamente, hemos observado que el uso de ciertos
otros idiomas en tareas de razonamiento puede generar un mejor rendimiento que
el inglés. Sin embargo, este fenómeno sigue siendo poco explorado. En este
artículo, exploramos el límite superior de aprovechar el multilingüismo en
tareas de razonamiento, sugiriendo que el razonamiento multilingüe promete
límites superiores significativamente (casi 10 puntos Acc@k) y robustamente
(tolerancia a variaciones en la calidad de la traducción y elección del idioma)
más altos que el razonamiento exclusivo en inglés. Además de analizar la razón
detrás de este límite superior y los desafíos para alcanzarlo, también
encontramos que los métodos comunes de selección de respuestas no pueden
alcanzar este límite superior, debido a sus limitaciones y sesgos. Estas
percepciones podrían allanar el camino para futuras investigaciones dirigidas a
aprovechar plenamente el potencial del razonamiento multilingüe en los LLM.
English
Previous work indicates that large language models exhibit a significant
"English bias", i.e. they often perform better when tasks are presented in
English. Interestingly, we have observed that using certain other languages in
reasoning tasks can yield better performance than English. However, this
phenomenon remains under-explored. In this paper, we explore the upper bound of
harnessing multilingualism in reasoning tasks, suggesting that multilingual
reasoning promises significantly (by nearly 10 Acc@k points) and robustly
(tolerance for variations in translation quality and language choice) higher
upper bounds than English-only reasoning. Besides analyzing the reason behind
the upper bound and challenges in reaching it, we also find that common answer
selection methods cannot achieve this upper bound, due to their limitations and
biases. These insights could pave the way for future research aimed at fully
harnessing the potential of multilingual reasoning in LLMs.Summary
AI-Generated Summary