Ring-lite : Raisonnement évolutif via l'apprentissage par renforcement stabilisé par C3PO pour les modèles de langage de grande taille
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs
June 17, 2025
Auteurs: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI
Résumé
Nous présentons Ring-lite, un modèle de langage de grande taille basé sur une architecture de type Mixture-of-Experts (MoE) optimisé par apprentissage par renforcement (RL) pour atteindre des capacités de raisonnement efficaces et robustes. Construit à partir du modèle Ling-lite, disponible publiquement et comportant 16,8 milliards de paramètres dont 2,75 milliards activés, notre approche rivalise avec les performances des modèles de raisonnement à petite échelle les plus avancés (state-of-the-art, SOTA) sur des benchmarks exigeants (par exemple, AIME, LiveCodeBench, GPQA-Diamond) tout en activant seulement un tiers des paramètres requis par des modèles comparables. Pour y parvenir, nous introduisons un pipeline d’entraînement conjoint intégrant la distillation avec le RL, révélant des défis non documentés dans l’entraînement RL des MoE. Premièrement, nous identifions une instabilité d’optimisation lors de l’entraînement RL, et nous proposons Constrained Contextual Computation Policy Optimization (C3PO), une approche novatrice qui améliore la stabilité de l’entraînement et le débit de calcul grâce à une méthodologie de co-conception algorithme-système. Deuxièmement, nous démontrons empiriquement que la sélection des points de contrôle de distillation basée sur la perte d’entropie pour l’entraînement RL, plutôt que sur les métriques de validation, offre un meilleur compromis performance-efficacité lors de l’entraînement RL ultérieur. Enfin, nous développons un paradigme d’entraînement en deux étapes pour harmoniser l’intégration de données multi-domaines, résolvant les conflits de domaine qui surviennent lors de l’entraînement avec des ensembles de données mixtes. Nous publierons le modèle, les données et le code.
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model
optimized via reinforcement learning (RL) to achieve efficient and robust
reasoning capabilities. Built upon the publicly available Ling-lite model, a
16.8 billion parameter model with 2.75 billion activated parameters, our
approach matches the performance of state-of-the-art (SOTA) small-scale
reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench,
GPQA-Diamond) while activating only one-third of the parameters required by
comparable models. To accomplish this, we introduce a joint training pipeline
integrating distillation with RL, revealing undocumented challenges in MoE RL
training. First, we identify optimization instability during RL training, and
we propose Constrained Contextual Computation Policy Optimization(C3PO), a
novel approach that enhances training stability and improves computational
throughput via algorithm-system co-design methodology. Second, we empirically
demonstrate that selecting distillation checkpoints based on entropy loss for
RL training, rather than validation metrics, yields superior
performance-efficiency trade-offs in subsequent RL training. Finally, we
develop a two-stage training paradigm to harmonize multi-domain data
integration, addressing domain conflicts that arise in training with mixed
dataset. We will release the model, dataset, and code.