ScaleDiff: 고급 수학적 추론을 위한 난제 스케일링
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
저자: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
초록
대규모 추론 모델(Large Reasoning Models, LRMs)은 복잡한 문제 해결에서 인상적인 능력을 보여주며, 종종 정교한 추론을 자극하는 어려운 수학 문제에 대한 훈련으로부터 이점을 얻습니다. 최근 연구에서는 시드 데이터나 내재된 수학 개념을 기반으로 독점 모델이나 대규모 오픈소스 모델을 프롬프팅하여 수학 문제를 자동으로 합성하는 방법을 탐구해 왔습니다. 그러나 이러한 방법들은 높은 계산/API 비용, 복잡한 프롬프팅, 그리고 생성된 문제의 제한된 난이도로 인해 확장하기가 어려운 문제가 있습니다. 이러한 한계를 극복하기 위해, 우리는 어려운 문제의 생성을 확장하기 위해 설계된 간단하면서도 효과적인 파이프라인인 ScaleDiff를 제안합니다. 우리는 적응형 사고 모델을 사용하여 기존 데이터셋에서 어려운 문제를 단일 순방향 전달만으로 효율적으로 식별합니다. 이 모델은 문제의 난이도를 인지하고 "사고" 모드와 "비사고" 모드 사이를 자동으로 전환할 수 있습니다. 그런 다음, 이 필터링된 어려운 데이터에 대해 특화된 어려운 문제 생성기(DiffGen-8B)를 훈련시켜, 복잡한 인스턴스별 프롬프팅과 그에 따른 높은 API 비용 없이도 대규모로 새로운 어려운 문제를 생성할 수 있습니다. ScaleDiff-Math 데이터셋에서 Qwen2.5-Math-7B-Instruct를 미세 조정한 결과, 원본 데이터셋 대비 11.3%의 상당한 성능 향상을 보였으며, AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, 그리고 MATH500에서 평균 65.9%의 정확도를 달성하여 OpenThinker3와 같은 최근의 강력한 LRM들을 능가했습니다. 특히, 이 성능은 비용 효율적인 Qwen3-8B 모델을 교사 모델로 사용하여 달성되었으며, 이는 우리의 파이프라인이 더 크고 비용이 많이 드는 교사 모델에 의존하지 않고도 고급 추론 능력을 효과적으로 전달할 수 있음을 보여줍니다. 또한, 어려운 문제의 양이 증가함에 따라 모델의 성능이 어려운 벤치마크에서 명확한 확장 현상을 보이는 것을 관찰했습니다. 코드: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.