ChatPaper.aiChatPaper

Skalierung latenter Denkprozesse durch zyklische Sprachmodelle

Scaling Latent Reasoning via Looped Language Models

October 29, 2025
papers.authors: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI

papers.abstract

Moderne LLMs werden darauf trainiert, primär durch explizite Textgenerierung zu "denken", wie beispielsweise Chain-of-Thought (CoT), was das Schlussfolgern auf die Nachtrainingsphase verschiebt und Vortrainingsdaten unzureichend nutzt. Wir stellen Ouro vor und veröffentlichen es als Open Source, benannt nach dem rekursiven Ouroboros. Es handelt sich um eine Familie vortrainierter Loop Language Models (LoopLM), die stattdessen das Schlussfolgern in die Vortrainingsphase integrieren durch (i) iterative Berechnung im latenten Raum, (ii) ein entropie-regularisiertes Ziel zur gelernten Tiefenallokation und (iii) Skalierung auf 7,7 Billionen Tokens. Die Ouro 1,4B- und 2,6B-Modelle erreichen eine überlegene Leistung, die mit den Ergebnissen modernster LLMs mit bis zu 12B Parametern über eine breite Palette von Benchmarks vergleichbar ist. Durch kontrollierte Experimente zeigen wir, dass dieser Vorteil nicht auf eine erhöhte Wissenskapazität, sondern auf überlegene Fähigkeiten zur Wissensmanipulation zurückzuführen ist. Wir zeigen ebenfalls, dass LoopLM Schlussfolgerspuren erzeugt, die stärker mit den Endausgaben übereinstimmen als explizites CoT. Wir hoffen, dass unsere Ergebnisse das Potenzial von LoopLM als neuartige Skalierungsrichtung im Reasoning-Zeitalter aufzeigen. Unser Modell ist zu finden unter: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model could be found in: http://ouro-llm.github.io.
PDF2238February 7, 2026