ChatPaper.aiChatPaper

Ring-lite: C3PO安定化強化学習によるLLMのためのスケーラブルな推論

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

June 17, 2025
著者: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI

要旨

本論文では、強化学習(RL)を活用して効率的かつ堅牢な推論能力を実現する、Mixture-of-Experts(MoE)ベースの大規模言語モデル「Ring-lite」を提案する。公開されているLing-liteモデル(168億パラメータ、うち27.5億パラメータが活性化)を基盤として構築された本モデルは、最先端(SOTA)の小規模推論モデルと同等の性能を、AIME、LiveCodeBench、GPQA-Diamondなどの難易度の高いベンチマークで達成しつつ、比較可能なモデルに必要なパラメータ数の3分の1のみを活性化する。これを実現するため、蒸留とRLを統合した共同トレーニングパイプラインを導入し、MoE RLトレーニングにおける未記載の課題を明らかにした。第一に、RLトレーニング中の最適化不安定性を特定し、アルゴリズムとシステムの協調設計手法を通じてトレーニングの安定性を向上させ、計算スループットを改善する新規アプローチ「Constrained Contextual Computation Policy Optimization(C3PO)」を提案する。第二に、RLトレーニングにおいて検証指標ではなくエントロピー損失に基づいて蒸留チェックポイントを選択することが、その後のRLトレーニングにおいて優れた性能と効率のトレードオフをもたらすことを実証的に示す。最後に、複数ドメインのデータ統合を調和させるための2段階トレーニングパラダイムを開発し、混合データセットを用いたトレーニングで生じるドメイン間の衝突に対処する。本モデル、データセット、およびコードを公開する予定である。
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.
PDF42June 18, 2025