ChatPaper.aiChatPaper

ScaleDiff: Масштабирование сложных задач для продвинутого математического мышления

ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

September 25, 2025
Авторы: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
cs.AI

Аннотация

Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач, часто получая преимущество от обучения на трудных математических задачах, которые стимулируют сложные рассуждения. Недавние исследования были направлены на автоматизированную генерацию математических задач с использованием проприетарных моделей или масштабных открытых моделей, основанных на исходных данных или внутренних математических концепциях. Однако масштабирование этих методов остается сложной задачей из-за высоких вычислительных затрат/стоимости API, сложности формулирования запросов и ограниченного уровня сложности генерируемых задач. Чтобы преодолеть эти ограничения, мы предлагаем ScaleDiff — простой, но эффективный конвейер, предназначенный для масштабирования создания сложных задач. Мы эффективно идентифицируем сложные задачи из существующих наборов данных с помощью всего одного прямого прохода, используя адаптивную модель мышления, которая способна оценивать сложность задачи и автоматически переключаться между режимами "Мышление" и "Без мышления". Затем мы обучаем специализированный генератор сложных задач (DiffGen-8B) на этих отфильтрованных сложных данных, который может производить новые сложные задачи в больших масштабах, устраняя необходимость в сложных запросах для каждого экземпляра и связанных с ними высоких затрат на API. Тонкая настройка модели Qwen2.5-Math-7B-Instruct на наборе данных ScaleDiff-Math приводит к значительному увеличению производительности на 11,3% по сравнению с исходным набором данных и достигает средней точности 65,9% на тестах AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 и MATH500, превосходя недавние мощные LRMs, такие как OpenThinker3. Примечательно, что такая производительность достигается с использованием экономичной модели Qwen3-8B в качестве учителя, что демонстрирует, что наш конвейер может эффективно передавать продвинутые способности к рассуждению без необходимости в более крупных и дорогостоящих моделях-учителях. Кроме того, мы наблюдаем явный эффект масштабирования в производительности модели на сложных тестах по мере увеличения количества сложных задач. Код: https://github.com/QizhiPei/ScaleDiff.
English
Large Reasoning Models (LRMs) have shown impressive capabilities in complex problem-solving, often benefiting from training on difficult mathematical problems that stimulate intricate reasoning. Recent efforts have explored automated synthesis of mathematical problems by prompting proprietary models or large-scale open-source models from seed data or inherent mathematical concepts. However, scaling up these methods remains challenging due to their high computational/API cost, complexity of prompting, and limited difficulty level of the generated problems. To overcome these limitations, we propose ScaleDiff, a simple yet effective pipeline designed to scale the creation of difficult problems. We efficiently identify difficult problems from existing datasets with only a single forward pass using an adaptive thinking model, which can perceive problem difficulty and automatically switch between "Thinking" and "NoThinking" modes. We then train a specialized difficult problem generator (DiffGen-8B) on this filtered difficult data, which can produce new difficult problems in large scale, eliminating the need for complex, per-instance prompting and its associated high API costs. Fine-tuning Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial performance increase of 11.3% compared to the original dataset and achieves a 65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500, outperforming recent strong LRMs like OpenThinker3. Notably, this performance is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating that our pipeline can effectively transfer advanced reasoning capabilities without relying on larger, more expensive teacher models. Furthermore, we observe a clear scaling phenomenon in model performance on difficult benchmarks as the quantity of difficult problems increases. Code: https://github.com/QizhiPei/ScaleDiff.
PDF82September 26, 2025