ChatPaper.aiChatPaper

Может ли мышление на нескольких языках усилить способность языковых моделей к рассуждению?

Could Thinking Multilingually Empower LLM Reasoning?

April 16, 2025
Авторы: Changjiang Gao, Xu Huang, Wenhao Zhu, Shujian Huang, Lei Li, Fei Yuan
cs.AI

Аннотация

Предыдущие исследования показывают, что крупные языковые модели демонстрируют значительную "английскую предвзятость", то есть они часто работают лучше, когда задачи представлены на английском языке. Интересно, что мы наблюдали, что использование некоторых других языков в задачах логического рассуждения может давать лучшие результаты, чем английский. Однако это явление остается недостаточно изученным. В данной статье мы исследуем верхний предел использования многоязычия в задачах логического рассуждения, предполагая, что многоязычное рассуждение обещает значительно (почти на 10 пунктов Acc@k) и устойчиво (допуская вариации в качестве перевода и выборе языка) более высокие верхние пределы, чем рассуждение только на английском. Помимо анализа причин этого верхнего предела и трудностей в его достижении, мы также обнаруживаем, что распространенные методы выбора ответов не могут достичь этого предела из-за их ограничений и предубеждений. Эти инсайты могут проложить путь для будущих исследований, направленных на полное раскрытие потенциала многоязычного рассуждения в крупных языковых моделях.
English
Previous work indicates that large language models exhibit a significant "English bias", i.e. they often perform better when tasks are presented in English. Interestingly, we have observed that using certain other languages in reasoning tasks can yield better performance than English. However, this phenomenon remains under-explored. In this paper, we explore the upper bound of harnessing multilingualism in reasoning tasks, suggesting that multilingual reasoning promises significantly (by nearly 10 Acc@k points) and robustly (tolerance for variations in translation quality and language choice) higher upper bounds than English-only reasoning. Besides analyzing the reason behind the upper bound and challenges in reaching it, we also find that common answer selection methods cannot achieve this upper bound, due to their limitations and biases. These insights could pave the way for future research aimed at fully harnessing the potential of multilingual reasoning in LLMs.

Summary

AI-Generated Summary

PDF272April 21, 2025