ChatPaper.aiChatPaper

테스트 타임 스케일링을 통한 교차 언어 추론

Crosslingual Reasoning through Test-Time Scaling

May 8, 2025
저자: Zheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji
cs.AI

초록

대규모 언어 모델의 추론 능력은 주로 영어를 중심으로 연구되며, 이는 사전 학습된 모델이 다국어를 지원하는 경우에도 마찬가지입니다. 본 연구에서는 영어로 진행된 긴 사고의 연쇄(CoT)를 통한 추론 미세 조정이 다른 언어로 얼마나 일반화될 수 있는지 조사합니다. 첫째, 영어 중심의 추론 언어 모델(RLM)에 대한 추론 계산 자원을 확장하면, 저자원 언어를 포함한 다양한 언어에서의 수학적 추론 능력이 향상되어, 모델 크기가 두 배인 모델을 능가하는 수준에 이르는 것을 발견했습니다. 둘째, 영어 중심 RLM의 CoT가 자연스럽게 주로 영어로 이루어지지만, 인용된 비영어 입력에 대해 추론할 때 일관적으로 "인용하고 사고하는" 패턴을 따르는 것을 확인했습니다. 셋째, 긴 CoT 추론의 언어를 효과적으로 제어하는 전략을 발견했으며, 모델이 고자원 언어에서 더 효율적이고 잘 추론하는 것을 관찰했습니다. 마지막으로, 특히 STEM(과학, 기술, 공학, 수학)에서 문화적 상식 지식으로의 도메인 외 추론 일반화가 부족한 것을 관찰했으며, 이는 영어에서도 마찬가지였습니다. 전반적으로, 우리는 영어 추론 테스트 시간 확장의 다국어 일반화 가능성을 입증하고, 그 메커니즘을 연구하며, 한계를 제시합니다. 실무자들은 영어 중심 RLM이 고자원 언어에서 추론하도록 하는 것이 바람직하며, 저자원 언어와 도메인 외 맥락에서의 추론 능력을 개선하기 위한 추가 연구가 필요하다고 결론지었습니다.
English
Reasoning capabilities of large language models are primarily studied for English, even when pretrained models are multilingual. In this work, we investigate to what extent English reasoning finetuning with long chain-of-thoughts (CoTs) can generalize across languages. First, we find that scaling up inference compute for English-centric reasoning language models (RLMs) improves multilingual mathematical reasoning across many languages including low-resource languages, to an extent where they outperform models twice their size. Second, we reveal that while English-centric RLM's CoTs are naturally predominantly English, they consistently follow a quote-and-think pattern to reason about quoted non-English inputs. Third, we discover an effective strategy to control the language of long CoT reasoning, and we observe that models reason better and more efficiently in high-resource languages. Finally, we observe poor out-of-domain reasoning generalization, in particular from STEM to cultural commonsense knowledge, even for English. Overall, we demonstrate the potentials, study the mechanisms and outline the limitations of crosslingual generalization of English reasoning test-time scaling. We conclude that practitioners should let English-centric RLMs reason in high-resource languages, while further work is needed to improve reasoning in low-resource languages and out-of-domain contexts.

Summary

AI-Generated Summary

PDF51May 9, 2025