ChatPaper.aiChatPaper

DeepMath-103K: Масштабный, сложный, очищенный и проверяемый математический набор данных для развития навыков рассуждения

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

April 15, 2025
Авторы: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Аннотация

Способность к сложным математическим рассуждениям является ключевым критерием для оценки искусственного интеллекта. Хотя применение обучения с подкреплением (RL) к большим языковым моделям (LLM) демонстрирует перспективы, прогресс существенно ограничивается отсутствием крупномасштабных обучающих данных, которые были бы достаточно сложными, имели проверяемые форматы ответов, подходящие для RL, и не содержали бы загрязнений, связанных с оценочными тестами. Для устранения этих ограничений мы представляем DeepMath-103K — новый крупномасштабный набор данных, содержащий примерно 103 тысячи математических задач, специально разработанных для обучения продвинутых моделей рассуждений с помощью RL. DeepMath-103K создан с использованием строгого процесса, включающего анализ источников, тщательную очистку от множества тестовых данных и фильтрацию по высокой сложности (в основном уровни 5–9), что значительно превосходит существующие открытые ресурсы по уровню сложности. Каждая задача включает проверяемый итоговый ответ, что позволяет использовать RL на основе правил, а также три различных решения, сгенерированных с помощью R1, подходящих для различных обучающих подходов, таких как контролируемая тонкая настройка или дистилляция. Охватывая широкий спектр математических тем, DeepMath-103K способствует развитию обобщаемых навыков рассуждений. Мы показываем, что модели, обученные на DeepMath-103K, достигают значительных улучшений на сложных математических тестах, подтверждая их эффективность. Мы публикуем DeepMath-103K в открытом доступе, чтобы способствовать прогрессу сообщества в создании более мощных систем ИИ для рассуждений: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

Summary

AI-Generated Summary

PDF126April 16, 2025