ChatPaper.aiChatPaper

Große Reasoning-Modelle sind (noch) keine mehrsprachigen latenten Reasoner

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

January 6, 2026
papers.authors: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) erzielen hohe Leistungen bei mathematischen Reasoning-Aufgaben, was oft ihrer Fähigkeit zugeschrieben wird, explizite Chain-of-Thought-Erklärungen (CoT) zu generieren. Jüngste Arbeiten zeigen jedoch, dass LRMs häufig zur korrekten Antwort gelangen, bevor sie diese textuellen Reasoning-Schritte vollständig abgeschlossen haben. Dies deutet auf latentes Reasoning hin – interne, non-verbale Berechnungen, die in verborgenen Zuständen kodiert sind. Während dieses Phänomen im Englischen untersucht wurde, ist sein multilinguales Verhalten weitgehend unbekannt. In dieser Arbeit führen wir eine systematische Untersuchung des multilingualen latenten Reasoning in LRMs über 11 Sprachen hinweg durch. Mithilfe einer truncationsbasierten Strategie untersuchen wir, wie die korrekte Antwort entsteht, wenn dem Modell nur partielle Reasoning-Traces gegeben werden, was uns erlaubt, die schrittweise Bildung latenter Vorhersagen zu messen. Unsere Ergebnisse zeigen klare Evidenz für multilinguales latentes Reasoning, jedoch ungleichmäßig verteilt: stark in ressourcenstarken Sprachen, schwächer in ressourcenarmen Sprachen und insgesamt weniger beobachtbar bei schwierigeren Benchmarks. Um zu verstehen, ob diese Unterschiede unterschiedliche interne Mechanismen widerspiegeln, führen wir weiterführende Repräsentationsanalysen durch. Trotz oberflächlicher Disparitäten stellen wir fest, dass die interne Entwicklung der Vorhersagen über Sprachen hinweg hochkonsistent ist und sich weitgehend mit der des Englischen deckt – ein Muster, das auf einen englisch-zentrierten latenten Reasoning-Pfad hindeutet.
English
Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.
PDF11January 8, 2026