Nemotron-Math: Distillazione Efficiente del Ragionamento Matematico con Contesti Lunghi da Supervisione Multi-Modale
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision
December 17, 2025
Autori: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI
Abstract
Una supervisione matematica di alta qualità richiede stili di ragionamento diversificati, tracce estese e un'efficace integrazione di strumenti, capacità che i dataset esistenti forniscono solo in forma limitata. Sfruttando l'abilità di generazione multimodale di gpt-oss-120b, introduciamo Nemotron-Math, un dataset su larga scala per il ragionamento matematico contenente 7,5 milioni di tracce risolutive suddivise in modalità di ragionamento alta, media e bassa, ciascuna disponibile sia con che senza ragionamento integrato con strumenti Python (TIR).
Il dataset integra 85.000 problemi curati da AoPS con 262.000 problemi provenienti dalla community di StackExchange-Math, combinando attività strutturate da competizione con query matematiche eterogenee del mondo reale. Abbiamo condotto valutazioni controllate per verificarne la qualità.
Nemotron-Math supera costantemente il dataset OpenMathReasoning originale sui problemi AoPS corrispondenti. L'inclusione di StackExchange-Math migliora sostanzialmente robustezza e generalizzazione, specialmente su HLE-Math, mantenendo al contempo l'accuratezza sui benchmark di competizione matematica.
Per supportare addestramenti efficienti con contesti lunghi, abbiamo sviluppato una strategia sequenziale a bucket che accelera di 2-3 volte il fine-tuning con lunghezze di contesto di 128K senza significative perdite di accuratezza. Nel complesso, Nemotron-Math consente prestazioni all'avanguardia, inclusa un'accuratezza maj@16 del 100% su AIME 2024 e 2025 con TIR Python.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR).
The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality.
Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks.
To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.