ScaleDiff: Het Opschalen van Moeilijke Problemen voor Geavanceerd Wiskundig Redeneren
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
Auteurs: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
Samenvatting
Large Reasoning Models (LRMs) hebben indrukwekkende capaciteiten getoond in complexe probleemoplossing, waarbij ze vaak profiteren van training op moeilijke wiskundige problemen die ingewikkeld redeneren stimuleren. Recente inspanningen hebben de geautomatiseerde synthese van wiskundige problemen onderzocht door propriëtaire modellen of grootschalige open-source modellen aan te sturen met behulp van seed data of inherente wiskundige concepten. Het opschalen van deze methoden blijft echter een uitdaging vanwege de hoge computationele/API-kosten, de complexiteit van het aansturen en het beperkte moeilijkheidsniveau van de gegenereerde problemen. Om deze beperkingen te overwinnen, stellen we ScaleDiff voor, een eenvoudige maar effectieve pijplijn die is ontworpen om het creëren van moeilijke problemen op te schalen. We identificeren efficiënt moeilijke problemen uit bestaande datasets met slechts een enkele forward pass met behulp van een adaptief denkmodel, dat de moeilijkheidsgraad van problemen kan waarnemen en automatisch kan schakelen tussen "Denken" en "Niet Denken" modi. Vervolgens trainen we een gespecialiseerde generator voor moeilijke problemen (DiffGen-8B) op deze gefilterde moeilijke data, die op grote schaal nieuwe moeilijke problemen kan produceren, waardoor de noodzaak voor complexe, per-instantie aansturing en de bijbehorende hoge API-kosten wordt geëlimineerd. Het finetunen van Qwen2.5-Math-7B-Instruct op de ScaleDiff-Math dataset resulteert in een aanzienlijke prestatieverbetering van 11,3% in vergelijking met de originele dataset en behaalt een gemiddelde nauwkeurigheid van 65,9% op AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 en MATH500, wat recente sterke LRMs zoals OpenThinker3 overtreft. Opmerkelijk is dat deze prestatie wordt bereikt met behulp van het kostenefficiënte Qwen3-8B model als leraar, wat aantoont dat onze pijplijn geavanceerde redeneercapaciteiten effectief kan overdragen zonder te vertrouwen op grotere, duurdere leraarmodellen. Bovendien observeren we een duidelijk schaalverschijnsel in modelprestaties op moeilijke benchmarks naarmate de hoeveelheid moeilijke problemen toeneemt. Code: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.