Pensar de forma multilíngue poderia potencializar o raciocínio de modelos de linguagem de grande escala (LLMs)?
Could Thinking Multilingually Empower LLM Reasoning?
April 16, 2025
Autores: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI
Resumo
Trabalhos anteriores indicam que grandes modelos de linguagem exibem um significativo "viés para o inglês", ou seja, eles frequentemente apresentam melhor desempenho quando as tarefas são apresentadas em inglês. Curiosamente, observamos que o uso de certos outros idiomas em tarefas de raciocínio pode resultar em um desempenho superior ao do inglês. No entanto, esse fenômeno ainda é pouco explorado. Neste artigo, exploramos o limite superior do aproveitamento do multilinguismo em tarefas de raciocínio, sugerindo que o raciocínio multilíngue promete limites superiores significativamente (em quase 10 pontos Acc@k) e robustamente (tolerância a variações na qualidade da tradução e na escolha do idioma) mais altos do que o raciocínio exclusivamente em inglês. Além de analisar a razão por trás desse limite superior e os desafios para alcançá-lo, também descobrimos que os métodos comuns de seleção de respostas não conseguem atingir esse limite superior, devido às suas limitações e vieses. Essas percepções podem abrir caminho para pesquisas futuras voltadas a aproveitar plenamente o potencial do raciocínio multilíngue em LLMs.
English
Previous work indicates that large language models exhibit a significant
"English bias", i.e. they often perform better when tasks are presented in
English. Interestingly, we have observed that using certain other languages in
reasoning tasks can yield better performance than English. However, this
phenomenon remains under-explored. In this paper, we explore the upper bound of
harnessing multilingualism in reasoning tasks, suggesting that multilingual
reasoning promises significantly (by nearly 10 Acc@k points) and robustly
(tolerance for variations in translation quality and language choice) higher
upper bounds than English-only reasoning. Besides analyzing the reason behind
the upper bound and challenges in reaching it, we also find that common answer
selection methods cannot achieve this upper bound, due to their limitations and
biases. These insights could pave the way for future research aimed at fully
harnessing the potential of multilingual reasoning in LLMs.Summary
AI-Generated Summary