Крупные языковые модели (пока) не являются мультиязычными латентными рассуждающими
Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners
January 6, 2026
Авторы: Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
cs.AI
Аннотация
Крупные модели рассуждений (LRM) демонстрируют высокую производительность на задачах математического мышления, что часто связывают с их способностью генерировать явные объяснения в виде цепочки мыслей (CoT). Однако последние исследования показывают, что LRM часто приходят к правильному ответу до завершения этих текстовых шагов рассуждения, что указывает на наличие латентного рассуждения — внутреннего, невербального вычисления, закодированного в скрытых состояниях. Хотя это явление исследовалось для английского языка, его мультиязыковое поведение остаётся в значительной степени неизученным. В данной статье мы проводим систематическое исследование мультиязыкового латентного рассуждения в LRM для 11 языков. Используя стратегию усечения, мы изучаем, как правильный ответ возникает, когда модель получает лишь частичные траектории рассуждений, что позволяет нам измерить пошаговое формирование латентных предсказаний. Наши результаты выявляют явные свидетельства мультиязыкового латентного рассуждения, хотя и неравномерно: оно сильно в языках с большими ресурсами, слабее в языках с ограниченными ресурсами и в целом менее заметно на более сложных тестах. Чтобы понять, отражают ли эти различия различные внутренние механизмы, мы дополнительно проводим репрезентативный анализ. Несмотря на поверхностные различия, мы обнаруживаем, что внутренняя эволюция предсказаний высоко согласована между языками и в целом соответствует английскому — паттерн, указывающий на англоцентричный путь латентного рассуждения.
English
Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations. However, recent work shows that LRMs often arrive at the correct answer before completing these textual reasoning steps, indicating the presence of latent reasoning -- internal, non-verbal computation encoded in hidden states. While this phenomenon has been explored in English, its multilingual behavior remains largely unknown. In this paper, we conduct a systematic investigation of multilingual latent reasoning in LRMs across 11 languages. Using a truncation-based strategy, we examine how the correct answer emerges as the model is given only partial reasoning traces, allowing us to measure stepwise latent prediction formation. Our results reveal clear evidence of multilingual latent reasoning, though unevenly: strong in resource-rich languages, weaker in low-resource ones, and broadly less observable on harder benchmarks. To understand whether these differences reflect distinct internal mechanisms, we further perform representational analyses. Despite surface-level disparities, we find that the internal evolution of predictions is highly consistent across languages and broadly aligns with English -- a pattern suggesting an English-centered latent reasoning pathway.