Schalen van Latente Redeneervaardigheid via Geluside Taalmodellen
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
Auteurs: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
Samenvatting
Moderne grote taalmmodellen (LLM's) worden primair getraind om te "denken" via expliciete tekstgeneratie, zoals chain-of-thought (CoT). Dit verschuift het redeneerproces naar de post-trainingsfase en benut voor-trainingsdata suboptimaal. Wij presenteren en open-sourcen Ouro, vernoemd naar de recursieve Ouroboros: een familie van voorgetrainde Gelusde Taalmodellen (LoopLM) die redeneren juist inbouwden in de voor-trainingsfase door middel van (i) iteratieve berekening in de latente ruimte, (ii) een entropie-geregulariseerd doel voor geleide dieptetoewijzing, en (iii) schaling tot 7,7 biljoen tokens. De Ouro 1,4B- en 2,6B-modellen vertonen superieure prestaties die overeenkomen met de resultaten van state-of-the-art LLM's tot 12B op een breed scala aan benchmarks. Gecontroleerde experimenten tonen aan dat dit voordeel niet voortkomt uit een grotere kennis-capaciteit, maar uit superieure kennis-manipulatiecapaciteiten. We tonen ook aan dat LoopLM redeneersporen oplevert die beter in lijn zijn met de uiteindelijke outputs dan expliciete CoT. Wij hopen dat onze resultaten het potentieel van LoopLM aantonen als een nieuwe schalingsrichting in het redeneertijdperk. Ons model is te vinden op: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.