ChatPaper.aiChatPaper

Kan denken in meerdere talen het redeneervermogen van LLM's versterken?

Could Thinking Multilingually Empower LLM Reasoning?

April 16, 2025
Auteurs: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI

Samenvatting

Eerder onderzoek geeft aan dat grote taalmodelen een aanzienlijke "Engelse bias" vertonen, wat betekent dat ze vaak beter presteren wanneer taken in het Engels worden gepresenteerd. Interessant genoeg hebben we waargenomen dat het gebruik van bepaalde andere talen in redeneertaken betere prestaties kan opleveren dan Engels. Dit fenomeen blijft echter onderbelicht. In dit artikel onderzoeken we de bovengrens van het benutten van meertaligheid in redeneertaken, waarbij we suggereren dat meertalig redeneren een aanzienlijk (met bijna 10 Acc@k-punten) en robuust (tolerantie voor variaties in vertaalkwaliteit en taalgebruik) hogere bovengrens belooft dan redeneren in alleen Engels. Naast het analyseren van de reden achter deze bovengrens en de uitdagingen om deze te bereiken, constateren we ook dat gangbare methoden voor antwoordselectie deze bovengrens niet kunnen bereiken vanwege hun beperkingen en biases. Deze inzichten kunnen de weg vrijmaken voor toekomstig onderzoek gericht op het volledig benutten van het potentieel van meertalig redeneren in LLM's.
English
Previous work indicates that large language models exhibit a significant "English bias", i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@k points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

Summary

AI-Generated Summary

PDF272April 21, 2025