Ring-lite: Razonamiento Escalable mediante Aprendizaje por Refuerzo Estabilizado por C3PO para Modelos de Lenguaje de Gran Escala
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs
June 17, 2025
Autores: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI
Resumen
Presentamos Ring-lite, un modelo de lenguaje grande basado en Mixture-of-Experts (MoE) optimizado mediante aprendizaje por refuerzo (RL) para lograr capacidades de razonamiento eficientes y robustas. Construido sobre el modelo Ling-lite, disponible públicamente, un modelo de 16.8 mil millones de parámetros con 2.75 mil millones de parámetros activados, nuestro enfoque iguala el rendimiento de los modelos de razonamiento de pequeña escala más avanzados (SOTA) en benchmarks desafiantes (por ejemplo, AIME, LiveCodeBench, GPQA-Diamond) mientras activa solo un tercio de los parámetros requeridos por modelos comparables. Para lograrlo, introducimos una canalización de entrenamiento conjunta que integra la destilación con RL, revelando desafíos no documentados en el entrenamiento de RL con MoE. Primero, identificamos inestabilidad en la optimización durante el entrenamiento de RL y proponemos Constrained Contextual Computation Policy Optimization (C3PO), un enfoque novedoso que mejora la estabilidad del entrenamiento y aumenta el rendimiento computacional mediante una metodología de co-diseño algoritmo-sistema. Segundo, demostramos empíricamente que seleccionar puntos de control de destilación basados en la pérdida de entropía para el entrenamiento de RL, en lugar de métricas de validación, produce mejores compensaciones entre rendimiento y eficiencia en el entrenamiento de RL posterior. Finalmente, desarrollamos un paradigma de entrenamiento en dos etapas para armonizar la integración de datos multi-dominio, abordando conflictos de dominio que surgen en el entrenamiento con conjuntos de datos mixtos. Liberaremos el modelo, el conjunto de datos y el código.
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model
optimized via reinforcement learning (RL) to achieve efficient and robust
reasoning capabilities. Built upon the publicly available Ling-lite model, a
16.8 billion parameter model with 2.75 billion activated parameters, our
approach matches the performance of state-of-the-art (SOTA) small-scale
reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench,
GPQA-Diamond) while activating only one-third of the parameters required by
comparable models. To accomplish this, we introduce a joint training pipeline
integrating distillation with RL, revealing undocumented challenges in MoE RL
training. First, we identify optimization instability during RL training, and
we propose Constrained Contextual Computation Policy Optimization(C3PO), a
novel approach that enhances training stability and improves computational
throughput via algorithm-system co-design methodology. Second, we empirically
demonstrate that selecting distillation checkpoints based on entropy loss for
RL training, rather than validation metrics, yields superior
performance-efficiency trade-offs in subsequent RL training. Finally, we
develop a two-stage training paradigm to harmonize multi-domain data
integration, addressing domain conflicts that arise in training with mixed
dataset. We will release the model, dataset, and code.