テストタイムスケーリングによる多言語推論
Crosslingual Reasoning through Test-Time Scaling
May 8, 2025
著者: Zheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji
cs.AI
要旨
大規模言語モデルの推論能力は、主に英語を対象として研究されており、多言語対応の事前学習モデルであっても同様です。本研究では、英語における長い連鎖的思考(CoT)を用いた推論のファインチューニングが、どの程度まで他言語に汎化するかを調査します。まず、英語中心の推論言語モデル(RLM)における推論計算のスケールアップが、低リソース言語を含む多くの言語での数学的推論を向上させ、モデルサイズが2倍のモデルを凌駕することを発見しました。次に、英語中心のRLMのCoTは自然と英語が主流であるものの、引用された非英語の入力について推論する際に「引用して考える」パターンを一貫して採用していることを明らかにしました。第三に、長いCoT推論の言語を制御する効果的な戦略を発見し、モデルが高リソース言語ではより良く、効率的に推論することを観察しました。最後に、特にSTEMから文化的常識知識へのドメイン外推論の汎化が不十分であることを観察しました。全体として、英語推論のテストタイムスケーリングの多言語汎化の可能性を実証し、そのメカニズムを研究し、限界を明らかにしました。結論として、実務家は英語中心のRLMに高リソース言語で推論させるべきであり、低リソース言語やドメイン外の文脈での推論を改善するためのさらなる研究が必要であると述べています。
English
Reasoning capabilities of large language models are primarily studied for
English, even when pretrained models are multilingual. In this work, we
investigate to what extent English reasoning finetuning with long
chain-of-thoughts (CoTs) can generalize across languages. First, we find that
scaling up inference compute for English-centric reasoning language models
(RLMs) improves multilingual mathematical reasoning across many languages
including low-resource languages, to an extent where they outperform models
twice their size. Second, we reveal that while English-centric RLM's CoTs are
naturally predominantly English, they consistently follow a quote-and-think
pattern to reason about quoted non-English inputs. Third, we discover an
effective strategy to control the language of long CoT reasoning, and we
observe that models reason better and more efficiently in high-resource
languages. Finally, we observe poor out-of-domain reasoning generalization, in
particular from STEM to cultural commonsense knowledge, even for English.
Overall, we demonstrate the potentials, study the mechanisms and outline the
limitations of crosslingual generalization of English reasoning test-time
scaling. We conclude that practitioners should let English-centric RLMs reason
in high-resource languages, while further work is needed to improve reasoning
in low-resource languages and out-of-domain contexts.Summary
AI-Generated Summary