すべてのステップが進化する:兆規模思考モデルのための強化学習のスケーリング
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
October 21, 2025
著者: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen
cs.AI
要旨
我々は、初のオープンソースかつ最先端の思考モデルであるRing-1Tを発表します。このモデルは1兆の総パラメータを有し、トークンあたり約500億のパラメータを活性化します。このような兆規模パラメータのモデルを訓練することは、訓練-推論の不一致、ロールアウト処理の非効率性、RLシステムのボトルネックといった前例のない課題を引き起こします。これらの課題に対処するため、我々は3つの相互に関連する革新を先駆けました:(1) IcePopは、トークンレベルの不一致マスキングとクリッピングによりRL訓練を安定化し、訓練-推論のミスマッチによる不安定性を解決します;(2) C3PO++は、トークン予算下での長いロールアウトに対してリソース利用効率を向上させ、動的に分割することで高い時間効率を実現します;(3) ASystemは、兆規模パラメータモデルの訓練を妨げるシステム的なボトルネックを克服するために設計された高性能RLフレームワークです。Ring-1Tは重要なベンチマークで画期的な結果を達成しました:AIME-2025で93.4、HMMT-2025で86.72、CodeForcesで2088、ARC-AGI-v1で55.94を記録しました。特に、IMO-2025で銀メダルレベルの結果を達成し、その卓越した推論能力を裏付けています。1兆パラメータのMoEモデルをコミュニティに公開することで、研究コミュニティに最先端の推論能力への直接的なアクセスを提供します。この貢献は、大規模推論知能の民主化における重要なマイルストーンを示し、オープンソースモデルの性能における新たな基準を確立します。
English
We present Ring-1T, the first open-source, state-of-the-art thinking model
with a trillion-scale parameter. It features 1 trillion total parameters and
activates approximately 50 billion per token. Training such models at a
trillion-parameter scale introduces unprecedented challenges, including
train-inference misalignment, inefficiencies in rollout processing, and
bottlenecks in the RL system. To address these, we pioneer three interconnected
innovations: (1) IcePop stabilizes RL training via token-level discrepancy
masking and clipping, resolving instability from training-inference mismatches;
(2) C3PO++ improves resource utilization for long rollouts under a token budget
by dynamically partitioning them, thereby obtaining high time efficiency; and
(3) ASystem, a high-performance RL framework designed to overcome the systemic
bottlenecks that impede trillion-parameter model training. Ring-1T delivers
breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on
HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-v1. Notably, it attains a
silver medal-level result on the IMO-2025, underscoring its exceptional
reasoning capabilities. By releasing the complete 1T parameter MoE model to the
community, we provide the research community with direct access to cutting-edge
reasoning capabilities. This contribution marks a significant milestone in
democratizing large-scale reasoning intelligence and establishes a new baseline
for open-source model performance.