ChatPaper.aiChatPaper

Jeder Schritt entwickelt sich: Skalierung von Reinforcement Learning für ein Denkmodell in Billionen-Größenordnung

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

October 21, 2025
papers.authors: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen
cs.AI

papers.abstract

Wir präsentieren Ring-1T, das erste Open-Source-Denkmodell auf dem neuesten Stand der Technik mit einem Billionen-Parameter-Maßstab. Es verfügt über insgesamt 1 Billion Parameter und aktiviert etwa 50 Milliarden pro Token. Das Training solcher Modelle im Billionen-Parameter-Maßstab stellt bisher ungekannte Herausforderungen dar, darunter Trainings-Inferenz-Fehlausrichtung, Ineffizienzen in der Rollout-Verarbeitung und Engpässe im RL-System. Um diese zu bewältigen, führen wir drei miteinander verbundene Innovationen ein: (1) IcePop stabilisiert das RL-Training durch Token-Level-Diskrepanz-Maskierung und -Clipping und behebt so Instabilitäten durch Trainings-Inferenz-Unterschiede; (2) C3PO++ verbessert die Ressourcennutzung für lange Rollouts unter einem Token-Budget durch dynamische Partitionierung und erreicht dadurch eine hohe Zeiteffizienz; und (3) ASystem, ein hochleistungsfähiges RL-Framework, das entwickelt wurde, um die systemischen Engpässe zu überwinden, die das Training von Billionen-Parameter-Modellen behindern. Ring-1T erzielt bahnbrechende Ergebnisse in wichtigen Benchmarks: 93,4 auf AIME-2025, 86,72 auf HMMT-2025, 2088 auf CodeForces und 55,94 auf ARC-AGI-v1. Besonders hervorzuheben ist das Silbermedaillen-Niveau auf der IMO-2025, das seine außergewöhnlichen Fähigkeiten zur logischen Schlussfolgerung unterstreicht. Durch die Veröffentlichung des vollständigen 1T-Parameter-MoE-Modells für die Community ermöglichen wir der Forschung direkten Zugang zu modernsten Denkfähigkeiten. Dieser Beitrag markiert einen bedeutenden Meilenstein in der Demokratisierung groß angelegter Denkintelligenz und setzt einen neuen Maßstab für die Leistung von Open-Source-Modellen.
English
We present Ring-1T, the first open-source, state-of-the-art thinking model with a trillion-scale parameter. It features 1 trillion total parameters and activates approximately 50 billion per token. Training such models at a trillion-parameter scale introduces unprecedented challenges, including train-inference misalignment, inefficiencies in rollout processing, and bottlenecks in the RL system. To address these, we pioneer three interconnected innovations: (1) IcePop stabilizes RL training via token-level discrepancy masking and clipping, resolving instability from training-inference mismatches; (2) C3PO++ improves resource utilization for long rollouts under a token budget by dynamically partitioning them, thereby obtaining high time efficiency; and (3) ASystem, a high-performance RL framework designed to overcome the systemic bottlenecks that impede trillion-parameter model training. Ring-1T delivers breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-v1. Notably, it attains a silver medal-level result on the IMO-2025, underscoring its exceptional reasoning capabilities. By releasing the complete 1T parameter MoE model to the community, we provide the research community with direct access to cutting-edge reasoning capabilities. This contribution marks a significant milestone in democratizing large-scale reasoning intelligence and establishes a new baseline for open-source model performance.
PDF512October 22, 2025