Масштабирование латентных рассуждений с помощью зацикленных языковых моделей
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
Авторы: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
Аннотация
Современные крупные языковые модели обучаются «мыслить» в основном через явное генерацию текста,
такую как цепочка мыслей (CoT), что откладывает рассуждение на пост-обучение и недостаточно
использует предобученные данные. Мы представляем и открываем Ouro, названный в честь
рекурсивного Уробороса, — семейство предобученных циклических языковых моделей (LoopLM),
которые, напротив, встраивают рассуждения в фазу предобучения с помощью (i) итеративных
вычислений в латентном пространстве, (ii) энтропийно-регуляризованной функции потерь для
обученного распределения глубины и (iii) масштабирования до 7,7 трлн токенов. Модели Ouro
1,4B и 2,6B демонстрируют превосходную производительность, соответствующую результатам
современных моделей размером до 12B в широком спектре тестов. В контролируемых экспериментах
мы показываем, что это преимущество обусловлено не увеличенной ёмкостью знаний, а более
совершенными способностями манипулирования знаниями. Мы также демонстрируем, что LoopLM
порождает траектории рассуждений, более согласованные с конечными результатами, чем явная
CoT. Мы надеемся, что наши результаты покажут потенциал LoopLM как нового направления
масштабирования в эпоху рассуждений. Нашу модель можно найти по адресу: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.