ChatPaper.aiChatPaper

Pensare in modo multilingue potrebbe potenziare il ragionamento dei modelli linguistici di grandi dimensioni?

Could Thinking Multilingually Empower LLM Reasoning?

April 16, 2025
Autori: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI

Abstract

Ricerche precedenti indicano che i grandi modelli linguistici presentano un significativo "bias verso l'inglese", ovvero spesso ottengono prestazioni migliori quando i compiti sono presentati in inglese. Curiosamente, abbiamo osservato che l'uso di alcune altre lingue nei compiti di ragionamento può portare a prestazioni migliori rispetto all'inglese. Tuttavia, questo fenomeno rimane poco esplorato. In questo articolo, esploriamo il limite superiore dello sfruttamento del multilinguismo nei compiti di ragionamento, suggerendo che il ragionamento multilingue promette limiti superiori significativamente (di quasi 10 punti Acc@k) e robustamente (tolleranza alle variazioni nella qualità della traduzione e nella scelta della lingua) più alti rispetto al ragionamento esclusivamente in inglese. Oltre ad analizzare la ragione dietro questo limite superiore e le sfide per raggiungerlo, scopriamo anche che i metodi comuni di selezione delle risposte non possono raggiungere questo limite, a causa delle loro limitazioni e dei loro bias. Queste intuizioni potrebbero aprire la strada a future ricerche mirate a sfruttare appieno il potenziale del ragionamento multilingue nei LLM.
English
Previous work indicates that large language models exhibit a significant "English bias", i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@k points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

Summary

AI-Generated Summary

PDF272April 21, 2025