Mise à l'échelle du raisonnement latent via des modèles de langage en boucle
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
papers.authors: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
papers.abstract
Les LLM modernes sont entraînés à « penser » principalement via la génération explicite de texte, comme le raisonnement en chaîne (chain-of-thought, CoT), ce qui reporte le raisonnement après l'entraînement et sous-utilise les données de pré-entraînement. Nous présentons et ouvrons les sources d'Ouro, nommé d'après l'Ouroboros récursif, une famille de modèles de langage à boucle pré-entraînés (LoopLM) qui intègrent plutôt le raisonnement dans la phase de pré-entraînement grâce à (i) un calcul itératif dans l'espace latent, (ii) une fonction de coût à régularisation d'entropie pour l'allocation apprise de la profondeur, et (iii) une mise à l'échelle sur 7,7 billions de tokens. Les modèles Ouro 1,4B et 2,6B bénéficient de performances supérieures, égalant les résultats de LLM à l'état de l'art allant jusqu'à 12B sur un large éventail de benchmarks. Par des expériences contrôlées, nous montrons que cet avantage ne provient pas d'une capacité de connaissance accrue, mais de capacités supérieures de manipulation des connaissances. Nous montrons également que LoopLM produit des traces de raisonnement plus alignées avec les sorties finales que le CoT explicite. Nous espérons que nos résultats démontrent le potentiel de LoopLM comme une nouvelle direction de mise à l'échelle dans l'ère du raisonnement. Notre modèle est disponible à l'adresse : http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.