ChatPaper.aiChatPaper

大規模推論モデルは(まだ)多言語潜在推論器ではない

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

January 6, 2026
著者: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
cs.AI

要旨

大規模推論モデル(LRM)は数学的推論タスクにおいて高い性能を発揮し、その要因は明示的な思考連鎖(CoT)による説明を生成できる能力に帰せられることが多い。しかし最近の研究では、LRMがこれらのテキストによる推論ステップを完了する前に正解に到達することが頻繁にあり、これは潜在推論(隠れ状態に符号化された内的・非言語的な計算)の存在を示唆している。この現象は英語では探究されているが、多言語における振る舞いはほとんど解明されていない。本論文では、11言語にわたるLRMの多言語潜在推論について体系的な調査を実施する。切り詰め戦略を用いて、部分的な推跡のみが与えられた場合に正解がどのように出現するかを検証し、段階的な潜在的な予測形成を測定する。結果は、多言語潜在推論の明確な証拠を示すものの、その強さは不均一であることが明らかになった:リソース豊富な言語では強く、低リソース言語では弱く、難易度の高いベンチマークでは全体的に観測されにくい。これらの差異が異なる内的メカニズムを反映するものか理解するため、さらに表現分析を実施した。表面的な相違にもかかわらず、予測の内的な発展プロセスは言語間で非常に一貫しており、英語と広く一致するパターンが認められた。これは、英語を中心とした潜在推論経路の存在を示唆するものである。
English
Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.
PDF11January 8, 2026