ScaleDiff: Escalando Problemas Difíciles para el Razonamiento Matemático Avanzado
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
Autores: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la resolución de problemas complejos, beneficiándose a menudo del entrenamiento en problemas matemáticos difíciles que estimulan un razonamiento intrincado. Recientes esfuerzos han explorado la síntesis automatizada de problemas matemáticos mediante la activación de modelos propietarios o modelos de código abierto a gran escala a partir de datos iniciales o conceptos matemáticos inherentes. Sin embargo, escalar estos métodos sigue siendo un desafío debido a su alto costo computacional/de API, la complejidad de la activación y el nivel limitado de dificultad de los problemas generados. Para superar estas limitaciones, proponemos ScaleDiff, una canalización simple pero efectiva diseñada para escalar la creación de problemas difíciles. Identificamos eficientemente problemas difíciles de conjuntos de datos existentes con solo una pasada hacia adelante utilizando un modelo de pensamiento adaptativo, que puede percibir la dificultad del problema y cambiar automáticamente entre modos de "Pensamiento" y "No Pensamiento". Luego, entrenamos un generador especializado de problemas difíciles (DiffGen-8B) en estos datos filtrados, que puede producir nuevos problemas difíciles a gran escala, eliminando la necesidad de una activación compleja por instancia y sus altos costos asociados de API. El ajuste fino de Qwen2.5-Math-7B-Instruct en el conjunto de datos ScaleDiff-Math produce un aumento sustancial en el rendimiento del 11.3% en comparación con el conjunto de datos original y alcanza una precisión promedio del 65.9% en AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 y MATH500, superando a LRMs recientes y potentes como OpenThinker3. Cabe destacar que este rendimiento se logra utilizando el modelo Qwen3-8B, eficiente en costos, como profesor, demostrando que nuestra canalización puede transferir efectivamente capacidades avanzadas de razonamiento sin depender de modelos profesores más grandes y costosos. Además, observamos un fenómeno claro de escalado en el rendimiento del modelo en puntos de referencia difíciles a medida que aumenta la cantidad de problemas difíciles. Código: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.