ChatPaper.aiChatPaper

Nemotron-Math: Effiziente Distillation mathematischen Denkvermögens mit langem Kontext durch Multi-Modus-Aufsicht

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

December 17, 2025
papers.authors: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI

papers.abstract

Hochwertige mathematische Denkfähigkeiten erfordern vielfältige Lösungsansätze, langkettige Lösungswege und effektive Werkzeugintegration – Eigenschaften, die bestehende Datensätze nur begrenzt bieten. Durch Nutzung der multimodalen Generierungsfähigkeiten von GPT-OSS-120B stellen wir Nemotron-Math vor, einen großangelegten mathematischen Denkdatensatz mit 7,5 Millionen Lösungswegen in hohen, mittleren und niedrigen Schwierigkeitsgraden, jeweils verfügbar mit und ohne Python-Werkzeugintegration (TIR). Der Datensatz vereint 85.000 kuratierte AoPS-Probleme mit 262.000 community-basierten StackExchange-Math-Problemen und kombiniert damit strukturierte Wettbewerbsaufgaben mit vielfältigen mathematischen Fragestellungen aus der Praxis. Wir führen kontrollierte Evaluationen zur Bewertung der Datensatzqualität durch. Nemotron-Math übertrifft durchgängig das ursprüngliche OpenMathReasoning bei vergleichbaren AoPS-Problemen. Die Integration von StackExchange-Math verbessert die Robustheit und Generalisierungsfähigkeit erheblich, insbesondere bei HLE-Math, bei gleichbleibender Genauigkeit auf mathematischen Wettbewerbsbenchmarks. Zur Unterstützung effizienten Langkontext-Trainings entwickelten wir eine sequenzielle Bucketing-Strategie, die Feinabstimmungen mit 128K Kontextlänge um das 2- bis 3-fache beschleunigt, ohne signifikante Genauigkeitseinbußen. Insgesamt ermöglicht Nemotron-Math Spitzenleistungen, einschließlich 100 % maj@16-Genauigkeit auf AIME 2024 und 2025 mit Python-TIR.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
PDF01December 20, 2025