Ring-lite: Skalierbares Schließen durch C3PO-stabilisiertes Reinforcement Learning für LLMs

papers.abstract

Wir präsentieren Ring-lite, ein auf Mixture-of-Experts (MoE) basierendes großes Sprachmodell, das durch Reinforcement Learning (RL) optimiert wurde, um effiziente und robuste Fähigkeiten zur logischen Schlussfolgerung zu erreichen. Aufbauend auf dem öffentlich verfügbaren Ling-lite-Modell, einem Modell mit 16,8 Milliarden Parametern und 2,75 Milliarden aktivierten Parametern, erreicht unser Ansatz die Leistung von state-of-the-art (SOTA) Modellen für logische Schlussfolgerung in kleinem Maßstab auf anspruchsvollen Benchmarks (z. B. AIME, LiveCodeBench, GPQA-Diamond), während nur ein Drittel der Parameter aktiviert wird, die vergleichbare Modelle benötigen. Um dies zu erreichen, führen wir eine gemeinsame Trainingspipeline ein, die Destillation mit RL integriert und bisher nicht dokumentierte Herausforderungen im RL-Training von MoE-Modellen aufdeckt. Erstens identifizieren wir Optimierungsinstabilitäten während des RL-Trainings und schlagen Constrained Contextual Computation Policy Optimization (C3PO) vor, einen neuartigen Ansatz, der die Trainingsstabilität verbessert und den Rechendurchsatz durch eine Algorithmus-System-Co-Design-Methodik steigert. Zweitens zeigen wir empirisch, dass die Auswahl von Destillations-Checkpoints basierend auf dem Entropieverlust für das RL-Training, anstelle von Validierungsmetriken, überlegene Leistungs-Effizienz-Kompromisse im nachfolgenden RL-Training liefert. Schließlich entwickeln wir ein zweistufiges Trainingsparadigma, um die Integration von Multi-Domain-Daten zu harmonisieren und Domänenkonflikte zu adressieren, die beim Training mit gemischten Datensätzen auftreten. Wir werden das Modell, den Datensatz und den Code veröffentlichen.

English

We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.

Ring-lite: Skalierbares Schließen durch C3PO-stabilisiertes Reinforcement Learning für LLMs

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

papers.abstract

Support