ScaleDiff : Mise à l'échelle des problèmes complexes pour le raisonnement mathématique avancé
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
papers.authors: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
papers.abstract
Les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités impressionnantes dans la résolution de problèmes complexes, bénéficiant souvent d'un entraînement sur des problèmes mathématiques difficiles qui stimulent un raisonnement élaboré. Des efforts récents ont exploré la synthèse automatisée de problèmes mathématiques en sollicitant des modèles propriétaires ou des modèles open-source à grande échelle à partir de données de départ ou de concepts mathématiques intrinsèques. Cependant, la mise à l'échelle de ces méthodes reste difficile en raison de leur coût computationnel/API élevé, de la complexité de la sollicitation et du niveau de difficulté limité des problèmes générés. Pour surmonter ces limitations, nous proposons ScaleDiff, un pipeline simple mais efficace conçu pour intensifier la création de problèmes difficiles. Nous identifions efficacement les problèmes difficiles dans des ensembles de données existants avec un seul passage avant en utilisant un modèle de pensée adaptative, capable de percevoir la difficulté des problèmes et de basculer automatiquement entre les modes "Pensée" et "Non-Pensée". Nous entraînons ensuite un générateur de problèmes difficiles spécialisé (DiffGen-8B) sur ces données filtrées, qui peut produire de nouveaux problèmes difficiles à grande échelle, éliminant ainsi le besoin de sollicitations complexes par instance et les coûts API associés. Le fine-tuning de Qwen2.5-Math-7B-Instruct sur l'ensemble de données ScaleDiff-Math entraîne une augmentation substantielle des performances de 11,3 % par rapport à l'ensemble de données original et atteint une précision moyenne de 65,9 % sur AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 et MATH500, surpassant des LRMs récents et performants comme OpenThinker3. Notamment, cette performance est obtenue en utilisant le modèle Qwen3-8B, économique, comme enseignant, démontrant que notre pipeline peut transférer efficacement des capacités de raisonnement avancées sans recourir à des modèles enseignants plus grands et plus coûteux. De plus, nous observons un phénomène clair de mise à l'échelle dans les performances des modèles sur des benchmarks difficiles à mesure que la quantité de problèmes difficiles augmente. Code : https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.