모든 단계가 진화한다: 조 단위 사고 모델을 위한 강화 학습의 확장
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
October 21, 2025
저자: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen
cs.AI
초록
우리는 최초의 오픈소스이자 최첨단 사고 모델인 Ring-1T를 소개합니다. 이 모델은 총 1조 개의 파라미터를 갖추고 있으며, 토큰당 약 500억 개의 파라미터를 활성화합니다. 이러한 1조 규모의 파라미터를 가진 모델을 학습시키는 것은 학습-추론 불일치, 롤아웃 처리의 비효율성, RL 시스템의 병목 현상 등 전례 없는 도전 과제를 야기합니다. 이를 해결하기 위해 우리는 세 가지 상호 연결된 혁신을 선도적으로 도입했습니다: (1) IcePop은 토큰 수준의 불일치 마스킹과 클리핑을 통해 RL 학습을 안정화하여 학습-추론 불일치로 인한 불안정성을 해결합니다; (2) C3PO++는 토큰 예산 하에서 긴 롤아웃을 동적으로 분할하여 자원 활용도를 개선함으로써 높은 시간 효율성을 얻습니다; (3) ASystem은 1조 파라미터 모델 학습을 방해하는 시스템적 병목 현상을 극복하기 위해 설계된 고성능 RL 프레임워크입니다. Ring-1T는 주요 벤치마크에서 획기적인 결과를 보여줍니다: AIME-2025에서 93.4, HMMT-2025에서 86.72, CodeForces에서 2088, ARC-AGI-v1에서 55.94를 기록했습니다. 특히, IMO-2025에서 은메달 수준의 결과를 달성하며 탁월한 추론 능력을 입증했습니다. 우리는 1조 파라미터 MoE 모델을 완전히 공개함으로써 연구 커뮤니티가 최첨단 추론 능력에 직접 접근할 수 있도록 합니다. 이번 기여는 대규모 추론 지능의 민주화에 있어 중요한 이정표를 세우며, 오픈소스 모델 성능의 새로운 기준을 확립합니다.
English
We present Ring-1T, the first open-source, state-of-the-art thinking model
with a trillion-scale parameter. It features 1 trillion total parameters and
activates approximately 50 billion per token. Training such models at a
trillion-parameter scale introduces unprecedented challenges, including
train-inference misalignment, inefficiencies in rollout processing, and
bottlenecks in the RL system. To address these, we pioneer three interconnected
innovations: (1) IcePop stabilizes RL training via token-level discrepancy
masking and clipping, resolving instability from training-inference mismatches;
(2) C3PO++ improves resource utilization for long rollouts under a token budget
by dynamically partitioning them, thereby obtaining high time efficiency; and
(3) ASystem, a high-performance RL framework designed to overcome the systemic
bottlenecks that impede trillion-parameter model training. Ring-1T delivers
breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on
HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-v1. Notably, it attains a
silver medal-level result on the IMO-2025, underscoring its exceptional
reasoning capabilities. By releasing the complete 1T parameter MoE model to the
community, we provide the research community with direct access to cutting-edge
reasoning capabilities. This contribution marks a significant milestone in
democratizing large-scale reasoning intelligence and establishes a new baseline
for open-source model performance.