ScaleDiff: Escalonando Problemas Complexos para Raciocínio Matemático Avançado
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
Autores: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) têm demonstrado capacidades impressionantes na resolução de problemas complexos, frequentemente se beneficiando do treinamento em problemas matemáticos difíceis que estimulam raciocínios intrincados. Esforços recentes exploraram a síntese automatizada de problemas matemáticos por meio da solicitação de modelos proprietários ou modelos de código aberto em grande escala a partir de dados iniciais ou conceitos matemáticos inerentes. No entanto, escalonar esses métodos continua desafiador devido ao alto custo computacional/de API, à complexidade da solicitação e ao nível limitado de dificuldade dos problemas gerados. Para superar essas limitações, propomos o ScaleDiff, um pipeline simples, porém eficaz, projetado para escalar a criação de problemas difíceis. Identificamos de forma eficiente problemas difíceis em conjuntos de dados existentes com apenas uma passagem direta usando um modelo de pensamento adaptativo, que pode perceber a dificuldade do problema e alternar automaticamente entre os modos "Pensar" e "Não Pensar". Em seguida, treinamos um gerador especializado de problemas difíceis (DiffGen-8B) nesses dados filtrados, que pode produzir novos problemas difíceis em grande escala, eliminando a necessidade de solicitações complexas por instância e seus altos custos associados de API. O ajuste fino do Qwen2.5-Math-7B-Instruct no conjunto de dados ScaleDiff-Math resulta em um aumento substancial de desempenho de 11,3% em comparação com o conjunto de dados original e alcança uma precisão média de 65,9% em AIME'24, AIME'25, HMMT-Fev'25, BRUMO'25 e MATH500, superando LRMs recentes e robustos como o OpenThinker3. Notavelmente, esse desempenho é alcançado usando o modelo econômico Qwen3-8B como professor, demonstrando que nosso pipeline pode transferir efetivamente capacidades avançadas de raciocínio sem depender de modelos professores maiores e mais caros. Além disso, observamos um claro fenômeno de escalonamento no desempenho do modelo em benchmarks difíceis à medida que a quantidade de problemas difíceis aumenta. Código: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.