ChatPaper.aiChatPaper

Scalabilità del Ragionamento Latente tramite Modelli Linguistici ad Anello

Scaling Latent Reasoning via Looped Language Models

October 29, 2025
Autori: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI

Abstract

I moderni LLM sono addestrati a "pensare" principalmente attraverso la generazione esplicita di testo, come il ragionamento a catena (CoT), che rimanda il processo deduttivo alla fase post-addestramento e sfrutta in modo subottimale i dati di pre-addestramento. Presentiamo e rendiamo open-source Ouro, chiamato come il ricorsivo Ouroboros, una famiglia di modelli linguistici ad anello pre-addestrati (LoopLM) che invece integrano il ragionamento nella fase di pre-addestramento attraverso: (i) calcolo iterativo nello spazio latente, (ii) un obiettivo con regolarizzazione dell'entropia per l'allocazione appresa della profondità, e (iii) scalabilità fino a 7.7T di token. I modelli Ouro 1.4B e 2.6B mostrano prestazioni superiori che eguagliano i risultati di LLM all'avanguardia fino a 12B su un'ampia gamma di benchmark. Attraverso esperimenti controllati, dimostriamo che questo vantaggio deriva non da una maggiore capacità di conoscenza, ma da capacità superiori di manipolazione della conoscenza. Mostriamo inoltre che LoopLM produce tracce di ragionamento più allineate con gli output finali rispetto al CoT esplicito. Speriamo che i nostri risultati dimostrino il potenziale di LoopLM come nuova direzione di scalabilità nell'era del ragionamento. Il nostro modello è disponibile su: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model could be found in: http://ouro-llm.github.io.
PDF2186December 2, 2025