ChatPaper.aiChatPaper

Немотрон-Мат: Эффективное дистилляция математических рассуждений с длинным контекстом на основе мультимодального обучения

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

December 17, 2025
Авторы: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI

Аннотация

Для обеспечения высококачественного контроля математических рассуждений требуются разнообразные стили рассуждений, развернутые последовательности решений и эффективная интеграция инструментов — возможности, которые существующие наборы данных предоставляют лишь в ограниченной форме. Используя многомодальную способность генерации модели gpt-oss-120b, мы представляем Nemotron-Math — крупномасштабный набор данных для математических рассуждений, содержащий 7,5 миллиона траекторий решений с высоким, средним и низким уровнями сложности рассуждений, каждый из которых доступен как с использованием Python-инструментов (TIR), так и без них. Набор данных интегрирует 85 тысяч тщательно отобранных задач из AoPS с 262 тысячами задач, собранных сообществом на StackExchange-Math, сочетая структурированные олимпиадные задания с разнообразными математическими запросами из реального мира. Мы проводим контролируемые оценки для проверки качества набора данных. Nemotron-Math стабильно превосходит исходный OpenMathReasoning на сопоставимых задачах из AoPS. Включение данных StackExchange-Math существенно повышает устойчивость и способность к обобщению, особенно на наборе HLE-Math, при этом сохраняя точность на математических олимпиадных тестах. Для поддержки эффективного обучения с длинным контекстом мы разработали стратегию последовательного бакетирования, которая ускоряет тонкую настройку с длиной контекста 128K токенов в 2–3 раза без значительной потери точности. В целом, Nemotron-Math обеспечивает передовые результаты, включая 100% точность maj@16 на AIME 2024 и 2025 с использованием Python TIR.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
PDF01December 20, 2025