Nemotron-Math: Destilação Eficiente de Raciocínio Matemático de Contexto Longo a partir de Supervisão Multimodal

Resumo

A supervisão de alta qualidade do raciocínio matemático requer estilos de raciocínio diversificados, traços de longa duração e integração eficaz de ferramentas, capacidades que os conjuntos de dados existentes fornecem apenas de forma limitada. Aproveitando a capacidade de geração multimodal do gpt-oss-120b, introduzimos o Nemotron-Math, um conjunto de dados de raciocínio matemático em larga escala contendo 7,5 milhões de traços de solução em modos de raciocínio alto, médio e baixo, cada um disponível com e sem raciocínio com integração de ferramentas Python (TIR). O conjunto de dados integra 85 mil problemas curados do AoPS com 262 mil problemas da comunidade StackExchange-Math, combinando tarefas estruturadas de competição com consultas matemáticas diversificadas do mundo real. Realizamos avaliações controladas para avaliar a qualidade do conjunto de dados. O Nemotron-Math supera consistentemente o OpenMathReasoning original em problemas correspondentes do AoPS. A incorporação do StackExchange-Math melhora substancialmente a robustez e a generalização, especialmente no HLE-Math, preservando a precisão em benchmarks de competições matemáticas. Para suportar o treinamento eficiente de contexto longo, desenvolvemos uma estratégia sequencial de agrupamento que acelera o *fine-tuning* com comprimento de contexto de 128K em 2 a 3 vezes sem perda significativa de precisão. No geral, o Nemotron-Math permite um desempenho de ponta, incluindo 100% de precisão maj@16 no AIME 2024 e 2025 com TIR em Python.

English

High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.

Nemotron-Math: Destilação Eficiente de Raciocínio Matemático de Contexto Longo a partir de Supervisão Multimodal

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Resumo

Support