ChatPaper.aiChatPaper

루프 언어 모델을 통한 잠재적 추론의 확장

Scaling Latent Reasoning via Looped Language Models

October 29, 2025
저자: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian
cs.AI

초록

현대 대규모 언어 모델(LLM)은 주로 사고 연쇄(CoT)와 같은 명시적 텍스트 생성을 통해 "사고"하도록 훈련됩니다. 이는 추론을 사후 훈련으로 미루고 사전 훈련 데이터를 충분히 활용하지 못하는 방식입니다. 우리는 재귀적인 우로보로스에서 이름을 딴 Ouro를 발표 및 오픈소스로 공개합니다. Ouro는 사전 훈련된 순환 언어 모델(LoopLM) 패밀리로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 7.7T 토큰 규모의 확장을 통해 사전 훈련 단계에 추론 능력을 구축합니다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최대 12B 규모의 최첨단(SOTA) LLM 결과에 맞먹는 우수한 성능을 보입니다. 통제 실험을 통해 이러한 장점이 증가된 지식 용량이 아닌, 우수한 지식 조작 능력에서 비롯됨을 보여줍니다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 잘 일치하는 추론 흔적을 생성함을 보여줍니다. 우리의 결과가 추론 시대의 새로운 확장 방향으로서 LoopLM의 잠재력을 보여주기를 바랍니다. 우리의 모델은 다음에서 확인할 수 있습니다: http://ouro-llm.github.io.
English
Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model could be found in: http://ouro-llm.github.io.
PDF2186December 2, 2025