Cada Passo Evolui: Escalonando o Aprendizado por Reforço para um Modelo de Pensamento em Escala de Trilhões
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
October 21, 2025
Autores: Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo, Jiaming Liu, Jian Liu, Jianhao Fu, Jiannan Shi, Jianwen Wang, Jianxin Lai, Jin Yang, Jun Mei, Jun Zhou, Junbo Zhao, Junping Zhao, Kuan Xu, Le Su, Lei Chen, Li Tang, Liang Jiang, Liangcheng Fu, Lianhao Xu, Linfeng Shi, Lisha Liao, Longfei Zheng, Meng Li, Mingchun Chen, Qi Zuo, Qiang Cheng, Qianggang Cao, Qitao Shi, Quanrui Guo, Senlin Zhu, Shaofei Wang, Shaomian Zheng, Shuaicheng Li, Shuwei Gu, Siba Chen, Tao Wu, Tao Zhang, Tianyu Zhang, Tianyu Zhou, Tiwei Bie, Tongkai Yang, Wang Hong, Wang Ren, Weihua Chen, Wenbo Yu, Wengang Zheng, Xiangchun Wang, Xiaodong Yan, Xiaopei Wan, Xin Zhao, Xinyu Kong, Xinyu Tang, Xudong Han, Xudong Wang, Xuemin Yang, Xueyu Hu, Yalin Zhang, Yan Sun, Yicheng Shan, Yilong Wang, Yingying Xu, Yongkang Liu, Yongzhen Guo, Yuanyuan Wang, Yuchen Yan, Yuefan Wang, Yuhong Guo, Zehuan Li, Zhankai Xu, Zhe Li, Zhenduo Zhang, Zhengke Gui, Zhenxuan Pan, Zhenyu Huang, Zhenzhong Lan, Zhiqiang Ding, Zhiqiang Zhang, Zhixun Li, Zhizhen Liu, Zihao Wang, Zujie Wen
cs.AI
Resumo
Apresentamos o Ring-1T, o primeiro modelo de pensamento de código aberto e estado da arte com parâmetros em escala de trilhão. Ele possui 1 trilhão de parâmetros totais e ativa aproximadamente 50 bilhões por token. Treinar modelos nessa escala de parâmetros introduz desafios sem precedentes, incluindo desalinhamento entre treinamento e inferência, ineficiências no processamento de rollouts e gargalos no sistema de RL (Reinforcement Learning). Para abordar esses problemas, pioneiramos três inovações interconectadas: (1) O IcePop estabiliza o treinamento de RL por meio de mascaramento e corte de discrepâncias em nível de token, resolvendo instabilidades causadas por incompatibilidades entre treinamento e inferência; (2) O C3PO++ melhora a utilização de recursos para rollouts longos sob um orçamento de token, particionando-os dinamicamente, obtendo assim alta eficiência temporal; e (3) O ASystem, uma estrutura de RL de alto desempenho projetada para superar os gargalos sistêmicos que impedem o treinamento de modelos com parâmetros em escala de trilhão. O Ring-1T alcança resultados revolucionários em benchmarks críticos: 93,4 no AIME-2025, 86,72 no HMMT-2025, 2088 no CodeForces e 55,94 no ARC-AGI-v1. Notavelmente, ele atinge um resultado de nível medalha de prata na IMO-2025, destacando suas capacidades excepcionais de raciocínio. Ao liberar o modelo completo de 1T parâmetros MoE (Mixture of Experts) para a comunidade, fornecemos acesso direto a capacidades de raciocínio de ponta para a comunidade de pesquisa. Essa contribuição marca um marco significativo na democratização da inteligência de raciocínio em larga escala e estabelece um novo padrão para o desempenho de modelos de código aberto.
English
We present Ring-1T, the first open-source, state-of-the-art thinking model
with a trillion-scale parameter. It features 1 trillion total parameters and
activates approximately 50 billion per token. Training such models at a
trillion-parameter scale introduces unprecedented challenges, including
train-inference misalignment, inefficiencies in rollout processing, and
bottlenecks in the RL system. To address these, we pioneer three interconnected
innovations: (1) IcePop stabilizes RL training via token-level discrepancy
masking and clipping, resolving instability from training-inference mismatches;
(2) C3PO++ improves resource utilization for long rollouts under a token budget
by dynamically partitioning them, thereby obtaining high time efficiency; and
(3) ASystem, a high-performance RL framework designed to overcome the systemic
bottlenecks that impede trillion-parameter model training. Ring-1T delivers
breakthrough results across critical benchmarks: 93.4 on AIME-2025, 86.72 on
HMMT-2025, 2088 on CodeForces, and 55.94 on ARC-AGI-v1. Notably, it attains a
silver medal-level result on the IMO-2025, underscoring its exceptional
reasoning capabilities. By releasing the complete 1T parameter MoE model to the
community, we provide the research community with direct access to cutting-edge
reasoning capabilities. This contribution marks a significant milestone in
democratizing large-scale reasoning intelligence and establishes a new baseline
for open-source model performance.