ChatPaper.aiChatPaper

Ring-lite: Масштабируемое рассуждение через стабилизированное C3PO обучение с подкреплением для больших языковых моделей

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

June 17, 2025
Авторы: Ring Team, Bin Hu, Cai Chen, Deng Zhao, Ding Liu, Dingnan Jin, Feng Zhu, Hao Dai, Hongzhi Luan, Jia Guo, Jiaming Liu, Jiewei Wu, Jun Mei, Jun Zhou, Junbo Zhao, Junwu Xiong, Kaihong Zhang, Kuan Xu, Lei Liang, Liang Jiang, Liangcheng Fu, Longfei Zheng, Qiang Gao, Qing Cui, Quan Wan, Shaomian Zheng, Shuaicheng Li, Tongkai Yang, Wang Ren, Xiaodong Yan, Xiaopei Wan, Xiaoyun Feng, Xin Zhao, Xinxing Yang, Xinyu Kong, Xuemin Yang, Yang Li, Yingting Wu, Yongkang Liu, Zhankai Xu, Zhenduo Zhang, Zhenglei Zhou, Zhenyu Huang, Zhiqiang Zhang, Zihao Wang, Zujie Wen
cs.AI

Аннотация

Мы представляем Ring-lite, крупную языковую модель на основе смеси экспертов (Mixture of Experts, MoE), оптимизированную с использованием обучения с подкреплением (Reinforcement Learning, RL) для достижения эффективных и устойчивых способностей к рассуждению. Построенная на основе общедоступной модели Ling-lite, которая содержит 16,8 миллиардов параметров с активированными 2,75 миллиардами параметров, наша модель демонстрирует производительность, сопоставимую с современными (state-of-the-art, SOTA) небольшими моделями для рассуждений на сложных тестовых наборах (например, AIME, LiveCodeBench, GPQA-Diamond), активируя при этом лишь треть параметров, необходимых для сравнимых моделей. Для достижения этого мы разработали совместный процесс обучения, интегрирующий дистилляцию с RL, и выявили ранее не задокументированные проблемы в обучении MoE с использованием RL. Во-первых, мы обнаружили нестабильность оптимизации во время RL-обучения и предложили новый подход — Оптимизацию политики вычислений с ограниченным контекстом (Constrained Contextual Computation Policy Optimization, C3PO), который повышает стабильность обучения и улучшает вычислительную производительность за счет методологии совместного проектирования алгоритмов и систем. Во-вторых, мы эмпирически показали, что выбор контрольных точек дистилляции на основе энтропийных потерь для RL-обучения, а не на основе метрик валидации, обеспечивает более оптимальный баланс между производительностью и эффективностью в последующем RL-обучении. Наконец, мы разработали двухэтапную парадигму обучения для гармонизации интеграции данных из нескольких доменов, устраняя конфликты доменов, возникающие при обучении на смешанных наборах данных. Мы опубликуем модель, набор данных и код.
English
We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.
PDF42June 18, 2025