La pensée multilingue pourrait-elle renforcer le raisonnement des modèles de langage (LLM) ?
Could Thinking Multilingually Empower LLM Reasoning?
April 16, 2025
Auteurs: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI
Résumé
Les travaux précédents indiquent que les grands modèles de langage présentent un biais significatif en faveur de l'anglais, c'est-à-dire qu'ils performent souvent mieux lorsque les tâches sont présentées en anglais. Fait intéressant, nous avons observé que l'utilisation de certaines autres langues dans des tâches de raisonnement peut donner de meilleurs résultats qu'en anglais. Cependant, ce phénomène reste peu exploré. Dans cet article, nous explorons la limite supérieure de l'exploitation du multilinguisme dans les tâches de raisonnement, suggérant que le raisonnement multilingue promet des limites supérieures significativement (de près de 10 points Acc@k) et robustement (tolérance aux variations de qualité de traduction et de choix de langue) plus élevées que le raisonnement uniquement en anglais. Outre l'analyse des raisons derrière cette limite supérieure et des défis pour l'atteindre, nous constatons également que les méthodes courantes de sélection de réponses ne peuvent pas atteindre cette limite supérieure, en raison de leurs limitations et de leurs biais. Ces insights pourraient ouvrir la voie à des recherches futures visant à exploiter pleinement le potentiel du raisonnement multilingue dans les LLM.
English
Previous work indicates that large language models exhibit a significant
"English bias", i.e. they often perform better when tasks are presented in
English. Interestingly, we have observed that using certain other languages in
reasoning tasks can yield better performance than English. However, this
phenomenon remains under-explored. In this paper, we explore the upper bound of
harnessing multilingualism in reasoning tasks, suggesting that multilingual
reasoning promises significantly (by nearly 10 Acc@k points) and robustly
(tolerance for variations in translation quality and language choice) higher
upper bounds than English-only reasoning. Besides analyzing the reason behind
the upper bound and challenges in reaching it, we also find that common answer
selection methods cannot achieve this upper bound, due to their limitations and
biases. These insights could pave the way for future research aimed at fully
harnessing the potential of multilingual reasoning in LLMs.Summary
AI-Generated Summary