ChatPaper.aiChatPaper

Nemotron-Math: Efficiënte Distillatie van Wiskundig Redeneren met Lange Context uit Multi-Modale Supervisie

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

December 17, 2025
Auteurs: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI

Samenvatting

Hoogwaardige supervisie van wiskundig redeneren vereist diverse redeneerstijlen, uitgebreide oplossingstrajecten en effectieve toolintegratie, mogelijkheden die bestaande datasets slechts in beperkte mate bieden. Gebruikmakend van de multimodale generatiecapaciteit van gpt-oss-120b, introduceren we Nemotron-Math, een grootschalige dataset voor wiskundig redeneren met 7,5 miljoen oplossingstrajecten verdeeld over hoge, middelmatige en lage redeneerniveaus, elk beschikbaar met en zonder Python tool-geïntegreerd redeneren (TIR). De dataset integreert 85.000 gecureerde AoPS-problemen met 262.000 door de gemeenschap aangeleverde StackExchange-Math problemen, waarbij gestructureerde wedstrijdtaken worden gecombineerd met diverse wiskundige vragen uit de praktijk. We voeren gecontroleerde evaluaties uit om de datasetkwaliteit te beoordelen. Nemotron-Math presteert consistent beter dan de originele OpenMathReasoning op gematchte AoPS-problemen. De integratie van StackExchange-Math verbetert de robuustheid en generalisatie aanzienlijk, met name op HLE-Math, terwijl de nauwkeurigheid op wiskundige competitiebenchmarks behouden blijft. Om efficiënte training met lange contextvensters te ondersteunen, ontwikkelden we een sequentiële gebucket strategie die fine-tuning met een contextlengte van 128K met 2-3x versnelt zonder significant verlies aan nauwkeurigheid. Al met al stelt Nemotron-Math state-of-the-art prestaties mogelijk, inclusief 100% maj@16 nauwkeurigheid op AIME 2024 en 2025 met Python TIR.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
PDF61December 31, 2025