Raciocínio Latente em Escala por meio de Modelos de Linguagem em Loop
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
Autores: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
Resumo
Os modelos de linguagem modernos são treinados para "pensar" principalmente através da geração explícita de texto, como a cadeia de pensamento (CoT), que adia o raciocínio para o pós-treinamento e subutiliza os dados de pré-treinamento. Apresentamos e disponibilizamos em código aberto o Ouro, nomeado em referência ao recursivo Ouroboros, uma família de Modelos de Linguagem em Loop (LoopLM) pré-treinados que, em vez disso, incorporam o raciocínio na fase de pré-treinamento através de (i) computação iterativa no espaço latente, (ii) um objetivo com regularização de entropia para alocação de profundidade aprendida, e (iii) escalabilidade para 7,7 trilhões de tokens. Os modelos Ouro 1.4B e 2.6B apresentam desempenho superior, equiparando-se aos resultados de LLMs de última geração de até 12B em uma ampla gama de benchmarks. Por meio de experimentos controlados, demonstramos que essa vantagem não decorre de uma maior capacidade de conhecimento, mas de capacidades superiores de manipulação de conhecimento. Também mostramos que o LoopLM produz traços de raciocínio mais alinhados com as saídas finais do que a CoT explícita. Esperamos que nossos resultados demonstrem o potencial do LoopLM como uma nova direção de escalabilidade na era do raciocínio. Nosso modelo pode ser encontrado em: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.