ChatPaper.aiChatPaper

Nemotron-Math: 다중 모드 감독을 통한 효율적인 장문 맥락 수학적 추론 증류

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

December 17, 2025
저자: Wei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
cs.AI

초록

고품질 수학 추론 감독을 위해서는 다양한 추론 스타일, 장문의 추론 과정, 효과적인 도구 통합이 필요하나, 기존 데이터셋은 이러한 역량을 제한적으로만 제공합니다. 우리는 gpt-oss-120b의 다중 모드 생성 능력을 활용하여 고, 중, 저 수준의 추론 모드 각각에 대해 Python 도구 통합 추론(TIR) 적용 여부를 달리한 총 750만 개의 해결 과정을 포함하는 대규모 수학 추론 데이터셋인 Nemotron-Math를 소개합니다. 이 데이터셋은 정제된 85,000개의 AoPS 문제와 커뮤니티에서 수집된 262,000개의 StackExchange-Math 문제를 통합하여 구조화된 경쟁 과제와 다양한 실제 수학적 질의를 결합했습니다. 데이터셋 품질을 평가하기 위해 통제된 평가를 수행하였습니다. Nemotron-Math는 동일한 AoPS 문제에 대해 원본 OpenMathReasoning을 지속적으로 능가했습니다. StackExchange-Math를 통합하면 수학 경시대회 벤치마크의 정확도를 유지하면서도, 특히 HLE-Math에서 견고성과 일반화 능력을 크게 향상시켰습니다. 효율적인 장문맥 학습을 지원하기 위해, 정확도 손실 없이 128K 컨텍스트 길이 미세 조정 속도를 2~3배 가속화하는 순차적 버킷팅 전략을 개발했습니다. 전반적으로 Nemotron-Math는 Python TIR을 적용 시 AIME 2024 및 2025에서 100% maj@16 정확도를 포함한 최첨단 성능을 가능하게 합니다.
English
High-quality mathematical reasoning supervision requires diverse reasoning styles, long-form traces, and effective tool integration, capabilities that existing datasets provide only in limited form. Leveraging the multi-mode generation ability of gpt-oss-120b, we introduce Nemotron-Math, a large-scale mathematical reasoning dataset containing 7.5M solution traces across high, medium, and low reasoning modes, each available both with and without Python tool-integrated reasoning (TIR). The dataset integrates 85K curated AoPS problems with 262K community-sourced StackExchange-Math problems, combining structured competition tasks with diverse real-world mathematical queries. We conduct controlled evaluations to assess the dataset quality. Nemotron-Math consistently outperforms the original OpenMathReasoning on matched AoPS problems. Incorporating StackExchange-Math substantially improves robustness and generalization, especially on HLE-Math, while preserving accuracy on math competition benchmarks. To support efficient long-context training, we develop a sequential bucketed strategy that accelerates 128K context-length fine-tuning by 2--3times without significant accuracy loss. Overall, Nemotron-Math enables state-of-the-art performance, including 100\% maj@16 accuracy on AIME 2024 and 2025 with Python TIR.
PDF01December 20, 2025