AceReason-Nemotron : Progrès dans le raisonnement mathématique et informatique grâce à l'apprentissage par renforcement
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning
May 22, 2025
Auteurs: Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Résumé
Malgré les récents progrès dans l'apprentissage par renforcement (RL) à grande échelle pour le raisonnement, la recette d'entraînement pour construire des modèles de raisonnement performants reste insaisissable. Les détails clés d'implémentation des modèles de pointe, tels que DeepSeek-R1, y compris les stratégies de curation des données et la recette d'entraînement RL, sont souvent omis. De plus, des recherches récentes indiquent que la distillation reste plus efficace que le RL pour les modèles plus petits. Dans ce travail, nous démontrons que le RL à grande échelle peut considérablement améliorer les capacités de raisonnement de modèles petits et moyens déjà performants, obtenant des résultats qui surpassent ceux des modèles basés sur la distillation de pointe. Nous étudions systématiquement le processus d'entraînement RL à travers des ablations extensives et proposons une approche simple mais efficace : un entraînement d'abord sur des prompts uniquement mathématiques, puis sur des prompts uniquement de code. Notamment, nous constatons que le RL uniquement mathématique améliore non seulement significativement les performances des modèles distillés sur les benchmarks mathématiques (par exemple, +14,6% / +17,2% sur AIME 2025 pour les modèles 7B / 14B), mais aussi sur les tâches de raisonnement de code (par exemple, +6,8% / +5,8% sur LiveCodeBench pour les modèles 7B / 14B). De plus, des itérations prolongées de RL uniquement de code améliorent encore les performances sur les benchmarks de code avec une dégradation minimale ou nulle des résultats en mathématiques. Nous développons un pipeline robuste de curation des données pour collecter des prompts difficiles avec des réponses et des cas de test de haute qualité et vérifiables, permettant un RL basé sur la vérification dans les deux domaines. Enfin, nous identifions des insights expérimentaux clés, y compris l'apprentissage curriculaire avec des longueurs de réponse progressivement croissantes et l'effet stabilisateur des mises à jour de paramètres on-policy. Nous constatons que le RL non seulement révèle les capacités de raisonnement fondamentales acquises lors du pré-entraînement et du fine-tuning supervisé (par exemple, la distillation), mais repousse également les limites de la capacité de raisonnement du modèle, lui permettant de résoudre des problèmes auparavant insolubles.
English
Despite recent progress in large-scale reinforcement learning (RL) for
reasoning, the training recipe for building high-performing reasoning models
remains elusive. Key implementation details of frontier models, such as
DeepSeek-R1, including data curation strategies and RL training recipe, are
often omitted. Moreover, recent research indicates distillation remains more
effective than RL for smaller models. In this work, we demonstrate that
large-scale RL can significantly enhance the reasoning capabilities of strong,
small- and mid-sized models, achieving results that surpass those of
state-of-the-art distillation-based models. We systematically study the RL
training process through extensive ablations and propose a simple yet effective
approach: first training on math-only prompts, then on code-only prompts.
Notably, we find that math-only RL not only significantly enhances the
performance of strong distilled models on math benchmarks (e.g., +14.6% /
+17.2% on AIME 2025 for the 7B / 14B models), but also code reasoning tasks
(e.g., +6.8% / +5.8% on LiveCodeBench for the 7B / 14B models). In addition,
extended code-only RL iterations further improve performance on code benchmarks
with minimal or no degradation in math results. We develop a robust data
curation pipeline to collect challenging prompts with high-quality, verifiable
answers and test cases to enable verification-based RL across both domains.
Finally, we identify key experimental insights, including curriculum learning
with progressively increasing response lengths and the stabilizing effect of
on-policy parameter updates. We find that RL not only elicits the foundational
reasoning capabilities acquired during pretraining and supervised fine-tuning
(e.g., distillation), but also pushes the limits of the model's reasoning
ability, enabling it to solve problems that were previously unsolvable.Summary
AI-Generated Summary