Ring-lite: Ragionamento Scalabile tramite Apprendimento per Rinforzo Stabilizzato da C3PO per LLM
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs
June 17, 2025
Autori: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI
Abstract
Presentiamo Ring-lite, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE) ottimizzato tramite apprendimento per rinforzo (RL) per ottenere capacità di ragionamento efficienti e robuste. Costruito sul modello Ling-lite disponibile pubblicamente, un modello da 16,8 miliardi di parametri con 2,75 miliardi di parametri attivati, il nostro approccio eguaglia le prestazioni dei modelli di ragionamento su piccola scala all'avanguardia (SOTA) su benchmark impegnativi (ad esempio, AIME, LiveCodeBench, GPQA-Diamond) attivando solo un terzo dei parametri richiesti da modelli comparabili. Per raggiungere questo obiettivo, introduciamo una pipeline di addestramento congiunto che integra la distillazione con l'RL, rivelando sfide non documentate nell'addestramento RL per MoE. In primo luogo, identifichiamo un'instabilità di ottimizzazione durante l'addestramento RL e proponiamo Constrained Contextual Computation Policy Optimization (C3PO), un approccio innovativo che migliora la stabilità dell'addestramento e aumenta il throughput computazionale attraverso una metodologia di co-progettazione algoritmo-sistema. In secondo luogo, dimostriamo empiricamente che la selezione dei checkpoint di distillazione basata sulla perdita di entropia per l'addestramento RL, piuttosto che sulle metriche di validazione, produce migliori compromessi tra prestazioni ed efficienza nel successivo addestramento RL. Infine, sviluppiamo un paradigma di addestramento in due fasi per armonizzare l'integrazione di dati multi-dominio, affrontando i conflitti di dominio che emergono durante l'addestramento con dataset misti. Rilasceremo il modello, il dataset e il codice.
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model
optimized via reinforcement learning (RL) to achieve efficient and robust
reasoning capabilities. Built upon the publicly available Ling-lite model, a
16.8 billion parameter model with 2.75 billion activated parameters, our
approach matches the performance of state-of-the-art (SOTA) small-scale
reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench,
GPQA-Diamond) while activating only one-third of the parameters required by
comparable models. To accomplish this, we introduce a joint training pipeline
integrating distillation with RL, revealing undocumented challenges in MoE RL
training. First, we identify optimization instability during RL training, and
we propose Constrained Contextual Computation Policy Optimization(C3PO), a
novel approach that enhances training stability and improves computational
throughput via algorithm-system co-design methodology. Second, we empirically
demonstrate that selecting distillation checkpoints based on entropy loss for
RL training, rather than validation metrics, yields superior
performance-efficiency trade-offs in subsequent RL training. Finally, we
develop a two-stage training paradigm to harmonize multi-domain data
integration, addressing domain conflicts that arise in training with mixed
dataset. We will release the model, dataset, and code.