Apriel-Reasoner: RL-Nachtraining für allgemeine und effiziente Argumentation

Zusammenfassung

Die Entwicklung allgemeiner Reasoning-Modelle durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) über diverse Domänen hinweg wird von führenden Open-Weight-Modellen häufig genutzt. Allerdings werden deren Trainingsrezepte und Domänenmischungen oft nicht offengelegt. Die gemeinsame Optimierung über Domänen hinweg stellt erhebliche Herausforderungen dar: Domänen unterscheiden sich stark in der Länge der Rollouts, der Problemkomplexität und der Stichprobeneffizienz. Zudem erhöhen Modelle mit langen Chain-of-Thought-Traces die Inferenzkosten und -latenz, was Effizienz für den praktischen Einsatz entscheidend macht. Wir stellen Apriel-Reasoner vor, das mit einem vollständig reproduzierbaren Multi-Domain-RL-Post-Training-Rezept auf Apriel-Base, einem Open-Weight-LLM mit 15B Parametern, trainiert wurde. Das Training erfolgte über fünf Domänen mit öffentlichen Datensätzen: Mathematik, Code-Generierung, Instruktionsbefolgung, logische Rätsel und Funktionsaufrufe. Wir führen einen adaptiven Domänen-Sampling-Mechanismus ein, der die Zielverteilung der Domänen trotz heterogener Rollout-Dynamiken beibehält, sowie eine schwierigkeitsabhängige Erweiterung der standardmäßigen Längenstrafe, die ohne zusätzlichen Trainingsaufwand längeres Reasoning für schwierige Probleme und kürzere Traces für einfache Probleme fördert. Apriel-Reasoner wurde mit einem strikten Ausgabebudget von 16K Tokens trainiert, verallgemeinert jedoch auf 32K Tokens während der Inferenz und übertrifft Apriel-Base auf AIME 2025, GPQA, MMLU-Pro und LiveCodeBench, wobei es 30-50 % kürzere Reasoning-Traces erzeugt. Es erreicht die Leistung starker Open-Weight-Modelle ähnlicher Größe bei geringerem Token-Verbrauch und verschiebt damit die Pareto-Grenze von Genauigkeit versus Token-Budget.

English

Building general-purpose reasoning models using reinforcement learning with verifiable rewards (RLVR) across diverse domains has been widely adopted by frontier open-weight models. However, their training recipes and domain mixtures are often not disclosed. Joint optimization across domains poses significant challenges: domains vary widely in rollout length, problem difficulty and sample efficiency. Further, models with long chain-of-thought traces increase inference cost and latency, making efficiency critical for practical deployment. We present Apriel-Reasoner, trained with a fully reproducible multi-domain RL post-training recipe on Apriel-Base, a 15B-parameter open-weight LLM, across five domains using public datasets: mathematics, code generation, instruction following, logical puzzles and function calling. We introduce an adaptive domain sampling mechanism that preserves target domain ratios despite heterogeneous rollout dynamics, and a difficulty-aware extension of the standard length penalty that, with no additional training overhead, encourages longer reasoning for difficult problems and shorter traces for easy ones. Trained with a strict 16K-token output budget, Apriel-Reasoner generalizes to 32K tokens at inference and improves over Apriel-Base on AIME 2025, GPQA, MMLU-Pro, and LiveCodeBench while producing 30-50% shorter reasoning traces. It matches strong open-weight models of similar size at lower token cost, thereby pushing the Pareto frontier of accuracy versus token budget.

Apriel-Reasoner: RL-Nachtraining für allgemeine und effiziente Argumentation

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Zusammenfassung

Support