ChatPaper.aiChatPaper

ScaleDiff : Mise à l'échelle des problèmes complexes pour le raisonnement mathématique avancé

ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

September 25, 2025
papers.authors: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI

papers.abstract

Les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités impressionnantes dans la résolution de problèmes complexes, bénéficiant souvent d'un entraînement sur des problèmes mathématiques difficiles qui stimulent un raisonnement élaboré. Des efforts récents ont exploré la synthèse automatisée de problèmes mathématiques en sollicitant des modèles propriétaires ou des modèles open-source à grande échelle à partir de données de départ ou de concepts mathématiques intrinsèques. Cependant, la mise à l'échelle de ces méthodes reste difficile en raison de leur coût computationnel/API élevé, de la complexité de la sollicitation et du niveau de difficulté limité des problèmes générés. Pour surmonter ces limitations, nous proposons ScaleDiff, un pipeline simple mais efficace conçu pour intensifier la création de problèmes difficiles. Nous identifions efficacement les problèmes difficiles dans des ensembles de données existants avec un seul passage avant en utilisant un modèle de pensée adaptative, capable de percevoir la difficulté des problèmes et de basculer automatiquement entre les modes "Pensée" et "Non-Pensée". Nous entraînons ensuite un générateur de problèmes difficiles spécialisé (DiffGen-8B) sur ces données filtrées, qui peut produire de nouveaux problèmes difficiles à grande échelle, éliminant ainsi le besoin de sollicitations complexes par instance et les coûts API associés. Le fine-tuning de Qwen2.5-Math-7B-Instruct sur l'ensemble de données ScaleDiff-Math entraîne une augmentation substantielle des performances de 11,3 % par rapport à l'ensemble de données original et atteint une précision moyenne de 65,9 % sur AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 et MATH500, surpassant des LRMs récents et performants comme OpenThinker3. Notamment, cette performance est obtenue en utilisant le modèle Qwen3-8B, économique, comme enseignant, démontrant que notre pipeline peut transférer efficacement des capacités de raisonnement avancées sans recourir à des modèles enseignants plus grands et plus coûteux. De plus, nous observons un phénomène clair de mise à l'échelle dans les performances des modèles sur des benchmarks difficiles à mesure que la quantité de problèmes difficiles augmente. Code : https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex problem-solving, often benefiting from training on difficult mathematical problems that stimulate intricate reasoning. Recent efforts have explored automated synthesis of mathematical problems by prompting proprietary models or large-scale open-source models from seed data or inherent mathematical concepts. However, scaling up these methods remains challenging due to their high computational/API cost, complexity of prompting, and limited difficulty level of the generated problems. To overcome these limitations, we propose ScaleDiff, a simple yet effective pipeline designed to scale the creation of difficult problems. We efficiently identify difficult problems from existing datasets with only a single forward pass using an adaptive thinking model, which can perceive problem difficulty and automatically switch between "Thinking" and "NoThinking" modes. We then train a specialized difficult problem generator (DiffGen-8B) on this filtered difficult data, which can produce new difficult problems in large scale, eliminating the need for complex, per-instance prompting and its associated high API costs. Fine-tuning Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial performance increase of 11.3% compared to the original dataset and achieves a 65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500, outperforming recent strong LRMs like OpenThinker3. Notably, this performance is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating that our pipeline can effectively transfer advanced reasoning capabilities without relying on larger, more expensive teacher models. Furthermore, we observe a clear scaling phenomenon in model performance on difficult benchmarks as the quantity of difficult problems increases. Code: https://github.com/QizhiPei/ScaleDiff.
PDF82September 26, 2025