ChatPaper.aiChatPaper

Könnte mehrsprachiges Denken das Reasoning von LLMs stärken?

Could Thinking Multilingually Empower LLM Reasoning?

April 16, 2025
Autoren: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI

Zusammenfassung

Frühere Arbeiten deuten darauf hin, dass große Sprachmodelle eine signifikante „Englisch-Verzerrung“ aufweisen, d. h. sie schneiden oft besser ab, wenn Aufgaben auf Englisch präsentiert werden. Interessanterweise haben wir beobachtet, dass die Verwendung bestimmter anderer Sprachen bei Denkaufgaben zu einer besseren Leistung führen kann als Englisch. Dieses Phänomen bleibt jedoch weitgehend unerforscht. In diesem Artikel untersuchen wir die Obergrenze der Nutzung von Mehrsprachigkeit bei Denkaufgaben und zeigen, dass mehrsprachiges Denken eine signifikant (um fast 10 Acc@k-Punkte) und robust (Toleranz gegenüber Schwankungen in der Übersetzungsqualität und Sprachwahl) höhere Obergrenze verspricht als ein rein englischsprachiges Denken. Neben der Analyse der Gründe für diese Obergrenze und der Herausforderungen, sie zu erreichen, stellen wir auch fest, dass gängige Methoden zur Antwortauswahl diese Obergrenze aufgrund ihrer Einschränkungen und Verzerrungen nicht erreichen können. Diese Erkenntnisse könnten den Weg für zukünftige Forschungen ebnen, die darauf abzielen, das Potenzial des mehrsprachigen Denkens in großen Sprachmodellen vollständig zu nutzen.
English
Previous work indicates that large language models exhibit a significant "English bias", i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@k points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

Summary

AI-Generated Summary

PDF272April 21, 2025