ChatPaper.aiChatPaper

Nemotron-Math: Destilación Eficiente de Razonamiento Matemático de Contexto Largo a partir de Supervisión Multimodal

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

December 17, 2025
Autores: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI

Resumen

La supervisión de razonamiento matemático de alta calidad requiere estilos de razonamiento diversos, trazas extensas e integración efectiva de herramientas, capacidades que los conjuntos de datos existentes solo proporcionan de forma limitada. Aprovechando la capacidad de generación multimodal de gpt-oss-120b, presentamos Nemotron-Math, un conjunto de datos de razonamiento matemático a gran escala que contiene 7.5 millones de trazas de solución en modos de razonamiento alto, medio y bajo, cada uno disponible tanto con como sin razonamiento con integración de herramientas Python (TIR). El conjunto de datos integra 85K problemas curados de AoPS con 262K problemas comunitarios de StackExchange-Math, combinando tareas estructuradas de competencia con consultas matemáticas diversas del mundo real. Realizamos evaluaciones controladas para valorar la calidad del conjunto de datos. Nemotron-Math supera consistentemente al OpenMathReasoning original en problemas equivalentes de AoPS. La incorporación de StackExchange-Math mejora sustancialmente la robustez y generalización, especialmente en HLE-Math, mientras mantiene la precisión en benchmarks de competencias matemáticas. Para apoyar el entrenamiento eficiente de contexto largo, desarrollamos una estrategia secuencial agrupada que acelera el ajuste fino de longitud de contexto de 128K entre 2 y 3 veces sin pérdida significativa de precisión. En general, Nemotron-Math permite un rendimiento de vanguardia, incluyendo 100% de precisión maj@16 en AIME 2024 y 2025 con Python TIR.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
PDF01December 20, 2025