ScaleDiff: Skalierung schwieriger Probleme für fortgeschrittenes mathematisches Denken
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
papers.authors: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben beeindruckende Fähigkeiten bei der Lösung komplexer Probleme gezeigt, oft durch das Training anspruchsvoller mathematischer Probleme, die tiefgreifendes Denken fördern. Jüngste Bemühungen haben die automatisierte Synthese mathematischer Probleme untersucht, indem proprietäre Modelle oder groß angelegte Open-Source-Modelle mit Ausgangsdaten oder inhärenten mathematischen Konzepten angestoßen wurden. Die Skalierung dieser Methoden bleibt jedoch aufgrund ihrer hohen Rechen-/API-Kosten, der Komplexität des Promptings und des begrenzten Schwierigkeitsgrades der generierten Probleme eine Herausforderung. Um diese Einschränkungen zu überwinden, schlagen wir ScaleDiff vor, eine einfache, aber effektive Pipeline, die darauf abzielt, die Erstellung schwieriger Probleme zu skalieren. Wir identifizieren effizient schwierige Probleme aus bestehenden Datensätzen mit nur einem einzigen Vorwärtsdurchlauf unter Verwendung eines adaptiven Denkmodells, das den Schwierigkeitsgrad von Problemen wahrnehmen und automatisch zwischen „Denken“ und „Nicht-Denken“ wechseln kann. Anschließend trainieren wir einen spezialisierten Generator für schwierige Probleme (DiffGen-8B) auf diesen gefilterten Daten, der neue schwierige Probleme in großem Maßstab erzeugen kann und so den Bedarf an komplexem, instanzspezifischem Prompting und den damit verbundenen hohen API-Kosten eliminiert. Das Feinabstimmen von Qwen2.5-Math-7B-Instruct auf dem ScaleDiff-Math-Datensatz führt zu einer erheblichen Leistungssteigerung von 11,3 % im Vergleich zum ursprünglichen Datensatz und erreicht eine durchschnittliche Genauigkeit von 65,9 % auf AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 und MATH500, wobei es aktuelle starke LRMs wie OpenThinker3 übertrifft. Bemerkenswert ist, dass diese Leistung mit dem kosteneffizienten Qwen3-8B-Modell als Lehrer erreicht wird, was zeigt, dass unsere Pipeline fortgeschrittene Denkfähigkeiten effektiv übertragen kann, ohne auf größere, teurere Lehrer-Modelle angewiesen zu sein. Darüber hinaus beobachten wir ein deutliches Skalierungsphänomen in der Modellleistung bei schwierigen Benchmarks, wenn die Menge der schwierigen Probleme zunimmt. Code: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.