Ring-lite: Масштабируемое рассуждение через стабилизированное C3PO обучение с подкреплением для больших языковых моделей

Аннотация

Мы представляем Ring-lite, крупную языковую модель на основе смеси экспертов (Mixture of Experts, MoE), оптимизированную с использованием обучения с подкреплением (Reinforcement Learning, RL) для достижения эффективных и устойчивых способностей к рассуждению. Построенная на основе общедоступной модели Ling-lite, которая содержит 16,8 миллиардов параметров с активированными 2,75 миллиардами параметров, наша модель демонстрирует производительность, сопоставимую с современными (state-of-the-art, SOTA) небольшими моделями для рассуждений на сложных тестовых наборах (например, AIME, LiveCodeBench, GPQA-Diamond), активируя при этом лишь треть параметров, необходимых для сравнимых моделей. Для достижения этого мы разработали совместный процесс обучения, интегрирующий дистилляцию с RL, и выявили ранее не задокументированные проблемы в обучении MoE с использованием RL. Во-первых, мы обнаружили нестабильность оптимизации во время RL-обучения и предложили новый подход — Оптимизацию политики вычислений с ограниченным контекстом (Constrained Contextual Computation Policy Optimization, C3PO), который повышает стабильность обучения и улучшает вычислительную производительность за счет методологии совместного проектирования алгоритмов и систем. Во-вторых, мы эмпирически показали, что выбор контрольных точек дистилляции на основе энтропийных потерь для RL-обучения, а не на основе метрик валидации, обеспечивает более оптимальный баланс между производительностью и эффективностью в последующем RL-обучении. Наконец, мы разработали двухэтапную парадигму обучения для гармонизации интеграции данных из нескольких доменов, устраняя конфликты доменов, возникающие при обучении на смешанных наборах данных. Мы опубликуем модель, набор данных и код.

English

We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.

Ring-lite: Масштабируемое рассуждение через стабилизированное C3PO обучение с подкреплением для больших языковых моделей

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Аннотация

Support