ChatPaper.aiChatPaper

Ring-lite: C3PO 안정화 강화 학습을 통한 대규모 언어 모델의 확장 가능한 추론

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

June 17, 2025
저자: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI

초록

우리는 강화 학습(RL)을 통해 최적화된 혼합 전문가(MoE) 기반의 대규모 언어 모델인 Ring-lite를 소개합니다. 이 모델은 효율적이고 견고한 추론 능력을 달성하기 위해 설계되었습니다. 공개된 Ling-lite 모델을 기반으로 구축된 이 모델은 168억 개의 파라미터 중 27억 5천만 개의 파라미터만 활성화된 상태에서도, 도전적인 벤치마크(예: AIME, LiveCodeBench, GPQA-Diamond)에서 최신 소규모 추론 모델의 성능을 따라잡습니다. 이를 위해 우리는 증류(distillation)와 RL을 통합한 공동 훈련 파이프라인을 도입하여, MoE RL 훈련에서 문서화되지 않은 문제점들을 밝혀냈습니다. 첫째, RL 훈련 중 최적화 불안정성을 식별하고, 이를 해결하기 위해 알고리즘-시스템 공동 설계 방법론을 통해 훈련 안정성을 향상시키고 계산 처리량을 개선하는 새로운 접근법인 Constrained Contextual Computation Policy Optimization(C3PO)을 제안합니다. 둘째, RL 훈련을 위해 검증 지표가 아닌 엔트로피 손실을 기반으로 증류 체크포인트를 선택하는 것이 후속 RL 훈련에서 더 나은 성능-효율성 균형을 가져온다는 것을 실증적으로 입증했습니다. 마지막으로, 다중 도메인 데이터 통합을 조화롭게 하기 위해 두 단계 훈련 패러다임을 개발하여, 혼합 데이터셋 훈련에서 발생하는 도메인 충돌 문제를 해결했습니다. 우리는 이 모델, 데이터셋 및 코드를 공개할 예정입니다.
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.
PDF42June 18, 2025