ScaleDiff: Масштабирование сложных задач для продвинутого математического мышления
ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
September 25, 2025
Авторы: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач, часто получая преимущество от обучения на трудных математических задачах, которые стимулируют сложные рассуждения. Недавние исследования были направлены на автоматизированную генерацию математических задач с использованием проприетарных моделей или масштабных открытых моделей, основанных на исходных данных или внутренних математических концепциях. Однако масштабирование этих методов остается сложной задачей из-за высоких вычислительных затрат/стоимости API, сложности формулирования запросов и ограниченного уровня сложности генерируемых задач. Чтобы преодолеть эти ограничения, мы предлагаем ScaleDiff — простой, но эффективный конвейер, предназначенный для масштабирования создания сложных задач. Мы эффективно идентифицируем сложные задачи из существующих наборов данных с помощью всего одного прямого прохода, используя адаптивную модель мышления, которая способна оценивать сложность задачи и автоматически переключаться между режимами "Мышление" и "Без мышления". Затем мы обучаем специализированный генератор сложных задач (DiffGen-8B) на этих отфильтрованных сложных данных, который может производить новые сложные задачи в больших масштабах, устраняя необходимость в сложных запросах для каждого экземпляра и связанных с ними высоких затрат на API. Тонкая настройка модели Qwen2.5-Math-7B-Instruct на наборе данных ScaleDiff-Math приводит к значительному увеличению производительности на 11,3% по сравнению с исходным набором данных и достигает средней точности 65,9% на тестах AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 и MATH500, превосходя недавние мощные LRMs, такие как OpenThinker3. Примечательно, что такая производительность достигается с использованием экономичной модели Qwen3-8B в качестве учителя, что демонстрирует, что наш конвейер может эффективно передавать продвинутые способности к рассуждению без необходимости в более крупных и дорогостоящих моделях-учителях. Кроме того, мы наблюдаем явный эффект масштабирования в производительности модели на сложных тестах по мере увеличения количества сложных задач. Код: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.