ChatPaper.aiChatPaper

Grote Redeneermodellen Zijn (Nog Geen) Meertalige Latente Redeneerders

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

January 6, 2026
Auteurs: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
cs.AI

Samenvatting

Grote redeneermodellen (LRM's) behalen sterke prestaties op wiskundige redeneertaken, wat vaak wordt toegeschreven aan hun vermogen om expliciete keten-van-gedachten (CoT)-verklaringen te genereren. Recent onderzoek toont echter aan dat LRM's vaak bij het juiste antwoord arriveren voordat ze deze tekstuele redeneerstappen hebben voltooid, wat wijst op de aanwezigheid van latent redeneren – interne, non-verbale berekening gecodeerd in verborgen toestanden. Hoewel dit fenomeen in het Engels is onderzocht, blijft het multilinguale gedrag ervan grotendeels onbekend. In dit artikel voeren we een systematisch onderzoek uit naar multilinguaal latent redeneren in LRM's in 11 talen. Met behulp van een op truncatie gebaseerde strategie onderzoeken we hoe het juiste antwoord naar voren komt wanneer het model slechts gedeeltelijke redeneersporen krijgt, wat ons in staat stelt de stapsgewijze vorming van latente voorspellingen te meten. Onze resultaten tonen duidelijk bewijs van multilinguaal latent redeneren, zij het ongelijkmatig: sterk in talen met veel middelen, zwakker in talen met weinig middelen, en over het algemeen minder waarneembaar op moeilijkere benchmarks. Om te begrijpen of deze verschillen verschillende interne mechanismen weerspiegelen, voeren we verder representatie-analyses uit. Ondanks oppervlakkige verschillen, stellen we vast dat de interne evolutie van voorspellingen zeer consistent is tussen talen en grotendeels overeenkomt met het Engels – een patroon dat wijst op een Engelsschalig latent redeneerpad.
English
Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.
PDF11January 8, 2026