Nemotron-Math: マルチモード監視による数学的推論の効率的な長文脈蒸留
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision
December 17, 2025
著者: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI
要旨
高品質な数学的推論の監修には、多様な推論スタイル、長文の推論過程、効果的なツール統合が求められますが、既存のデータセットがこれらの能力を提供するのは限定的です。我々は、gpt-oss-120bのマルチモード生成能力を活用し、高・中・低の各推論モードにおける750万の解法過程を含む大規模数学推論データセット「Nemotron-Math」を開発しました。各モードは、Pythonツール統合推論(TIR)を適用したバージョンと適用しないバージョンの両方が利用可能です。
本データセットは、8万5千件の厳選されたAoPS(Art of Problem Solving)問題と、26万2千件のコミュニティ提供のStackExchange-Math問題を統合し、構造化された競技問題と多様な実世界の数学的質問を組み合わせています。データセットの品質を評価するため、制御条件下での評価を実施しました。
Nemotron-Mathは、対応するAoPS問題において、従来のOpenMathReasoningを一貫して上回る性能を示しました。StackExchange-Mathの統合は、数学競技ベンチマークでの精度を維持しつつ、特にHLE-Mathにおいて堅牢性と汎化性能を大幅に向上させることが確認されています。
効率的な長文コンテキスト学習を支援するため、シーケンシャル・バケット戦略を開発し、128Kトークンのコンテキスト長におけるファインチューニングを精度の大幅な低下なく2~3倍加速することに成功しました。総合的に、Nemotron-Mathは最先端の性能を実現し、Python TIRを適用した場合、AIME 2024および2025において100%のmaj@16精度を達成しています。
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR).
The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality.
Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks.
To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.