ループ構造を持つ言語モデルによる潜在的推論のスケーリング
Scaling Latent Reasoning via Looped Language Models
October 29, 2025
著者: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI
要旨
現代の大規模言語モデル(LLM)は、主に連鎖思考(CoT)のような明示的なテキスト生成を通じて「思考」するように訓練されています。これは推論を学習後処理に委ね、事前学習データを十分に活用していない手法です。我々は再帰的シンボル「ウロボロス」に因んで名付けられたOuroを発表し、オープンソースで公開します。これはループ型言語モデル(LoopLM)ファミリーであり、(i)潜在空間における反復計算、(ii)学習済み深度配分のためのエントロピー正則化目標、(iii)7.7兆トークンへのスケーリングを通じて、推論能力を事前学習段階に組み込んでいます。Ouro 1.4Bおよび2.6Bモデルは、広範なベンチマークにおいて最大12Bの最先端LLMの結果に匹敵する優れた性能を発揮します。制御実験を通じて、この優位性が知識容量の増加ではなく、優れた知識操作能力に由来することを示します。またLoopLMが生成する推論トレースが、明示的CoTよりも最終出力と整合性が高いことも実証します。本成果が推論時代における新たなスケーリング手法としてのLoopLMの可能性を示すことを期待します。モデルは以下で公開されています:http://ouro-llm.github.io
English
Modern LLMs are trained to "think" primarily via explicit text generation,
such as chain-of-thought (CoT), which defers reasoning to post-training and
under-leverages pre-training data. We present and open-source Ouro, named after
the recursive Ouroboros, a family of pre-trained Looped Language Models
(LoopLM) that instead build reasoning into the pre-training phase through (i)
iterative computation in latent space, (ii) an entropy-regularized objective
for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and
2.6B models enjoy superior performance that match the results of up to 12B SOTA
LLMs across a wide range of benchmarks. Through controlled experiments, we show
this advantage stems not from increased knowledge capacity, but from superior
knowledge manipulation capabilities. We also show that LoopLM yields reasoning
traces more aligned with final outputs than explicit CoT. We hope our results
show the potential of LoopLM as a novel scaling direction in the reasoning era.
Our model could be found in: http://ouro-llm.github.io.