ScaleDiff: Scalabilità di Problemi Complessi per il Ragionamento Matematico Avanzato
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
Autori: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
Abstract
I Large Reasoning Models (LRM) hanno dimostrato capacità impressionanti nella risoluzione di problemi complessi, spesso beneficiando di un addestramento su problemi matematici difficili che stimolano ragionamenti intricati. Recenti sforzi hanno esplorato la sintesi automatizzata di problemi matematici mediante il prompting di modelli proprietari o modelli open-source su larga scala, partendo da dati di base o concetti matematici intrinseci. Tuttavia, scalare questi metodi rimane una sfida a causa del loro elevato costo computazionale/API, della complessità del prompting e del livello di difficoltà limitato dei problemi generati. Per superare queste limitazioni, proponiamo ScaleDiff, una pipeline semplice ma efficace progettata per scalare la creazione di problemi difficili. Identifichiamo in modo efficiente problemi difficili da dataset esistenti con un solo passaggio in avanti utilizzando un modello di pensiero adattivo, che può percepire la difficoltà del problema e passare automaticamente tra modalità "Thinking" e "NoThinking". Successivamente, addestriamo un generatore specializzato di problemi difficili (DiffGen-8B) su questi dati filtrati, che può produrre nuovi problemi difficili su larga scala, eliminando la necessità di un prompting complesso per ogni istanza e i relativi costi API elevati. Il fine-tuning di Qwen2.5-Math-7B-Instruct sul dataset ScaleDiff-Math produce un aumento sostanziale delle prestazioni dell'11,3% rispetto al dataset originale e raggiunge una precisione media del 65,9% su AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 e MATH500, superando recenti LRM forti come OpenThinker3. È importante notare che queste prestazioni sono ottenute utilizzando il modello Qwen3-8B, economicamente efficiente, come insegnante, dimostrando che la nostra pipeline può trasferire efficacemente capacità di ragionamento avanzate senza fare affidamento su modelli insegnanti più grandi e costosi. Inoltre, osserviamo un chiaro fenomeno di scaling nelle prestazioni del modello su benchmark difficili all'aumentare della quantità di problemi difficili. Codice: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.