Ring-lite: Raciocínio Escalável via Aprendizado por Reforço Estabilizado por C3PO para LLMs

Resumo

Apresentamos o Ring-lite, um modelo de linguagem de grande escala baseado em Mistura de Especialistas (MoE) otimizado por meio de aprendizado por reforço (RL) para alcançar capacidades de raciocínio eficientes e robustas. Construído sobre o modelo Ling-lite, disponível publicamente, um modelo com 16,8 bilhões de parâmetros e 2,75 bilhões de parâmetros ativados, nossa abordagem iguala o desempenho dos modelos de raciocínio em pequena escala mais avançados (SOTA) em benchmarks desafiadores (por exemplo, AIME, LiveCodeBench, GPQA-Diamond) enquanto ativa apenas um terço dos parâmetros exigidos por modelos comparáveis. Para isso, introduzimos um pipeline de treinamento conjunto que integra destilação com RL, revelando desafios não documentados no treinamento de RL com MoE. Primeiro, identificamos instabilidade de otimização durante o treinamento de RL e propomos o Constrained Contextual Computation Policy Optimization (C3PO), uma abordagem inovadora que melhora a estabilidade do treinamento e aumenta a produtividade computacional por meio de uma metodologia de co-design algoritmo-sistema. Segundo, demonstramos empiricamente que a seleção de checkpoints de destilação com base na perda de entropia para o treinamento de RL, em vez de métricas de validação, resulta em melhores trade-offs de desempenho-eficiência no treinamento de RL subsequente. Por fim, desenvolvemos um paradigma de treinamento em duas etapas para harmonizar a integração de dados de múltiplos domínios, abordando conflitos de domínio que surgem no treinamento com conjuntos de dados mistos. Disponibilizaremos o modelo, o conjunto de dados e o código.

English

We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.

Ring-lite: Raciocínio Escalável via Aprendizado por Reforço Estabilizado por C3PO para LLMs

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Resumo

Support