Escalado del Razonamiento Latente mediante Modelos de Lenguaje en Bucle
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
Autores: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
Resumen
Los LLM modernos se entrenan para "pensar" principalmente mediante generación explícita de texto, como el razonamiento en cadena (CoT), lo que difiere el razonamiento para después del entrenamiento y subutiliza los datos de preentrenamiento. Presentamos y publicamos como código abierto Ouro, nombrado en referencia al recursivo Ouroboros, una familia de Modelos de Lenguaje en Bucle (LoopLM) preentrenados que, en cambio, integran el razonamiento en la fase de preentrenamiento mediante (i) computación iterativa en espacio latente, (ii) un objetivo regularizado por entropía para la asignación aprendida de profundidad, y (iii) escalado a 7.7 billones de tokens. Los modelos Ouro de 1.4B y 2.6B muestran un rendimiento superior que iguala los resultados de LLMs de vanguardia de hasta 12B en una amplia gama de benchmarks. Mediante experimentos controlados, demostramos que esta ventaja no surge de una mayor capacidad de conocimiento, sino de capacidades superiores de manipulación del conocimiento. También mostramos que LoopLM produce trazas de razonamiento más alineadas con las salidas finales que el CoT explícito. Esperamos que nuestros resultados muestren el potencial de LoopLM como una nueva dirección de escalado en la era del razonamiento. Nuestro modelo puede encontrarse en: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.