AceReason-Nemotron : Progrès dans le raisonnement mathématique et informatique grâce à l'apprentissage par renforcement

papers.abstract

Malgré les récents progrès dans l'apprentissage par renforcement (RL) à grande échelle pour le raisonnement, la recette d'entraînement pour construire des modèles de raisonnement performants reste insaisissable. Les détails clés d'implémentation des modèles de pointe, tels que DeepSeek-R1, y compris les stratégies de curation des données et la recette d'entraînement RL, sont souvent omis. De plus, des recherches récentes indiquent que la distillation reste plus efficace que le RL pour les modèles plus petits. Dans ce travail, nous démontrons que le RL à grande échelle peut considérablement améliorer les capacités de raisonnement de modèles petits et moyens déjà performants, obtenant des résultats qui surpassent ceux des modèles basés sur la distillation de pointe. Nous étudions systématiquement le processus d'entraînement RL à travers des ablations extensives et proposons une approche simple mais efficace : un entraînement d'abord sur des prompts uniquement mathématiques, puis sur des prompts uniquement de code. Notamment, nous constatons que le RL uniquement mathématique améliore non seulement significativement les performances des modèles distillés sur les benchmarks mathématiques (par exemple, +14,6% / +17,2% sur AIME 2025 pour les modèles 7B / 14B), mais aussi sur les tâches de raisonnement de code (par exemple, +6,8% / +5,8% sur LiveCodeBench pour les modèles 7B / 14B). De plus, des itérations prolongées de RL uniquement de code améliorent encore les performances sur les benchmarks de code avec une dégradation minimale ou nulle des résultats en mathématiques. Nous développons un pipeline robuste de curation des données pour collecter des prompts difficiles avec des réponses et des cas de test de haute qualité et vérifiables, permettant un RL basé sur la vérification dans les deux domaines. Enfin, nous identifions des insights expérimentaux clés, y compris l'apprentissage curriculaire avec des longueurs de réponse progressivement croissantes et l'effet stabilisateur des mises à jour de paramètres on-policy. Nous constatons que le RL non seulement révèle les capacités de raisonnement fondamentales acquises lors du pré-entraînement et du fine-tuning supervisé (par exemple, la distillation), mais repousse également les limites de la capacité de raisonnement du modèle, lui permettant de résoudre des problèmes auparavant insolubles.

English

Despite recent progress in large-scale reinforcement learning (RL) for reasoning, the training recipe for building high-performing reasoning models remains elusive. Key implementation details of frontier models, such as DeepSeek-R1, including data curation strategies and RL training recipe, are often omitted. Moreover, recent research indicates distillation remains more effective than RL for smaller models. In this work, we demonstrate that large-scale RL can significantly enhance the reasoning capabilities of strong, small- and mid-sized models, achieving results that surpass those of state-of-the-art distillation-based models. We systematically study the RL training process through extensive ablations and propose a simple yet effective approach: first training on math-only prompts, then on code-only prompts. Notably, we find that math-only RL not only significantly enhances the performance of strong distilled models on math benchmarks (e.g., +14.6% / +17.2% on AIME 2025 for the 7B / 14B models), but also code reasoning tasks (e.g., +6.8% / +5.8% on LiveCodeBench for the 7B / 14B models). In addition, extended code-only RL iterations further improve performance on code benchmarks with minimal or no degradation in math results. We develop a robust data curation pipeline to collect challenging prompts with high-quality, verifiable answers and test cases to enable verification-based RL across both domains. Finally, we identify key experimental insights, including curriculum learning with progressively increasing response lengths and the stabilizing effect of on-policy parameter updates. We find that RL not only elicits the foundational reasoning capabilities acquired during pretraining and supervised fine-tuning (e.g., distillation), but also pushes the limits of the model's reasoning ability, enabling it to solve problems that were previously unsolvable.

AceReason-Nemotron : Progrès dans le raisonnement mathématique et informatique grâce à l'apprentissage par renforcement

AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

papers.abstract

Support