DeepMath-103K: Масштабный, сложный, очищенный и проверяемый математический набор данных для развития навыков рассуждения

Аннотация

Способность к сложным математическим рассуждениям является ключевым критерием для оценки искусственного интеллекта. Хотя применение обучения с подкреплением (RL) к большим языковым моделям (LLM) демонстрирует перспективы, прогресс существенно ограничивается отсутствием крупномасштабных обучающих данных, которые были бы достаточно сложными, имели проверяемые форматы ответов, подходящие для RL, и не содержали бы загрязнений, связанных с оценочными тестами. Для устранения этих ограничений мы представляем DeepMath-103K — новый крупномасштабный набор данных, содержащий примерно 103 тысячи математических задач, специально разработанных для обучения продвинутых моделей рассуждений с помощью RL. DeepMath-103K создан с использованием строгого процесса, включающего анализ источников, тщательную очистку от множества тестовых данных и фильтрацию по высокой сложности (в основном уровни 5–9), что значительно превосходит существующие открытые ресурсы по уровню сложности. Каждая задача включает проверяемый итоговый ответ, что позволяет использовать RL на основе правил, а также три различных решения, сгенерированных с помощью R1, подходящих для различных обучающих подходов, таких как контролируемая тонкая настройка или дистилляция. Охватывая широкий спектр математических тем, DeepMath-103K способствует развитию обобщаемых навыков рассуждений. Мы показываем, что модели, обученные на DeepMath-103K, достигают значительных улучшений на сложных математических тестах, подтверждая их эффективность. Мы публикуем DeepMath-103K в открытом доступе, чтобы способствовать прогрессу сообщества в создании более мощных систем ИИ для рассуждений: https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K: Масштабный, сложный, очищенный и проверяемый математический набор данных для развития навыков рассуждения

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Аннотация

Support