ChatPaper.aiChatPaper

Los Grandes Modelos de Razonamiento (Aún No Son) Razonadores Latentes Multilingües

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

January 6, 2026
Autores: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
cs.AI

Resumen

Los grandes modelos de razonamiento (LRM) logran un alto rendimiento en tareas de razonamiento matemático, lo que a menudo se atribuye a su capacidad para generar explicaciones explícitas de cadena de pensamiento (CoT). Sin embargo, trabajos recientes muestran que los LRM frecuentemente llegan a la respuesta correcta antes de completar estos pasos de razonamiento textual, lo que indica la presencia de razonamiento latente: un cómputo interno y no verbal codificado en los estados ocultos. Si bien este fenómeno se ha explorado en inglés, su comportamiento multilingüe sigue siendo en gran medida desconocido. En este artículo, realizamos una investigación sistemática del razonamiento latente multilingüe en LRM a través de 11 idiomas. Utilizando una estrategia basada en truncamiento, examinamos cómo emerge la respuesta correcta cuando al modelo solo se le proporcionan trazas de razonamiento parciales, lo que nos permite medir la formación de predicciones latentes paso a paso. Nuestros resultados revelan evidencia clara de razonamiento latente multilingüe, aunque de forma desigual: fuerte en idiomas con muchos recursos, más débil en idiomas de bajos recursos y, en general, menos observable en benchmarks más difíciles. Para comprender si estas diferencias reflejan mecanismos internos distintos, realizamos además análisis de representación. A pesar de las disparidades superficiales, encontramos que la evolución interna de las predicciones es altamente consistente entre idiomas y se alinea ampliamente con el inglés, un patrón que sugiere una vía de razonamiento latente centrada en el inglés.
English
Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.
PDF11January 8, 2026