Ring-lite: Schaalbaar redeneren via C3PO-gestabiliseerde reinforcement learning voor LLM's

Samenvatting

We presenteren Ring-lite, een Mixture-of-Experts (MoE)-gebaseerd groot taalmodel dat is geoptimaliseerd via reinforcement learning (RL) om efficiënte en robuuste redeneervaardigheden te bereiken. Gebouwd op het publiek beschikbare Ling-lite model, een model met 16,8 miljard parameters waarvan 2,75 miljard geactiveerde parameters, evenaart onze aanpak de prestaties van state-of-the-art (SOTA) kleinschalige redeneermodellen op uitdagende benchmarks (bijv. AIME, LiveCodeBench, GPQA-Diamond) terwijl slechts een derde van de parameters wordt geactiveerd die vergelijkbare modellen vereisen. Om dit te bereiken, introduceren we een gezamenlijke trainingspijplijn die distillatie integreert met RL, waarbij ongedocumenteerde uitdagingen in MoE RL-training aan het licht komen. Ten eerste identificeren we optimalisatie-instabiliteit tijdens RL-training, en we stellen Constrained Contextual Computation Policy Optimization (C3PO) voor, een nieuwe aanpak die de trainingsstabiliteit verbetert en de computationele doorvoer verhoogt via een algoritme-systeem co-design methodologie. Ten tweede tonen we empirisch aan dat het selecteren van distillatie-checkpoints op basis van entropieverlies voor RL-training, in plaats van validatiemetrics, superieure prestatie-efficiëntie afwegingen oplevert in latere RL-training. Tot slot ontwikkelen we een tweefasen trainingsparadigma om de integratie van multidomein data te harmoniseren, waarbij domeinconflicten die ontstaan bij training met gemengde datasets worden aangepakt. We zullen het model, de dataset en de code vrijgeven.

English

We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.

Ring-lite: Schaalbaar redeneren via C3PO-gestabiliseerde reinforcement learning voor LLM's

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

Samenvatting

Support