Nemotron-Math : Distillation efficace du raisonnement mathématique à partir d'une supervision multimodale pour des contextes longs
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision
December 17, 2025
papers.authors: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI
papers.abstract
La supervision de haute qualité du raisonnement mathématique nécessite une diversité de styles de raisonnement, des traces détaillées et une intégration efficace d'outils, des capacités que les ensembles de données existants ne fournissent que de manière limitée. En tirant parti de la capacité de génération multi-mode de gpt-oss-120b, nous présentons Nemotron-Math, un vaste ensemble de données de raisonnement mathématique contenant 7,5 millions de traces de résolution réparties en modes de raisonnement élevé, moyen et faible, chacun disponible avec et sans raisonnement intégrant l'outil Python (TIR).
Cet ensemble intègre 85 000 problèmes triés d'AoPS avec 262 000 problèmes communautaires de StackExchange-Math, combinant ainsi des tâches structurées de compétition avec des requêtes mathématiques variées issues du monde réel. Nous menons des évaluations contrôlées pour estimer la qualité de l'ensemble de données.
Nemotron-Math surpasse systématiquement l'original OpenMathReasoning sur les problèmes AoPS comparables. L'intégration de StackExchange-Math améliore substantiellement la robustesse et la généralisation, particulièrement sur HLE-Math, tout en préservant la précision sur les benchmarks de compétitions mathématiques.
Pour supporter un entraînement efficace en contexte long, nous développons une stratégie séquentielle groupée qui accélère le fine-tuning sur des contextes de 128K par un facteur 2 à 3 sans perte significative de précision. Globalement, Nemotron-Math permet d'atteindre des performances de pointe, incluant une précision maj@16 de 100 % sur AIME 2024 et 2025 avec TIR Python.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR).
The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality.
Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks.
To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.