DeepMath-103K : Un jeu de données mathématique à grande échelle, exigeant, décontaminé et vérifiable pour faire progresser le raisonnement
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
April 15, 2025
Auteurs: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Résumé
La capacité à effectuer des raisonnements mathématiques complexes constitue un critère essentiel pour l'intelligence artificielle. Bien que l'apprentissage par renforcement (RL) appliqué aux LLM montre des résultats prometteurs, les progrès sont considérablement entravés par le manque de données d'entraînement à grande échelle suffisamment difficiles, possédant des formats de réponse vérifiables adaptés au RL, et exemptes de contamination avec les benchmarks d'évaluation. Pour pallier ces limitations, nous introduisons DeepMath-103K, un nouveau jeu de données à grande échelle comprenant environ 103 000 problèmes mathématiques, spécifiquement conçu pour entraîner des modèles de raisonnement avancés via le RL. DeepMath-103K est élaboré grâce à un pipeline rigoureux incluant l'analyse des sources, une décontamination stricte par rapport à de nombreux benchmarks, et un filtrage pour une difficulté élevée (principalement niveaux 5 à 9), dépassant significativement les ressources ouvertes existantes en termes de défi. Chaque problème comprend une réponse finale vérifiable, permettant un RL basé sur des règles, ainsi que trois solutions distinctes générées par R1 adaptées à divers paradigmes d'entraînement comme le fine-tuning supervisé ou la distillation. Couvrant un large éventail de sujets mathématiques, DeepMath-103K favorise le développement d'un raisonnement généralisable. Nous démontrons que les modèles entraînés sur DeepMath-103K obtiennent des améliorations significatives sur des benchmarks mathématiques difficiles, validant ainsi son efficacité. Nous rendons DeepMath-103K public afin de faciliter les progrès de la communauté dans la construction de systèmes de raisonnement IA plus performants : https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for
artificial intelligence. While reinforcement learning (RL) applied to LLMs
shows promise, progress is significantly hindered by the lack of large-scale
training data that is sufficiently challenging, possesses verifiable answer
formats suitable for RL, and is free from contamination with evaluation
benchmarks. To address these limitations, we introduce DeepMath-103K, a new,
large-scale dataset comprising approximately 103K mathematical problems,
specifically designed to train advanced reasoning models via RL. DeepMath-103K
is curated through a rigorous pipeline involving source analysis, stringent
decontamination against numerous benchmarks, and filtering for high difficulty
(primarily Levels 5-9), significantly exceeding existing open resources in
challenge. Each problem includes a verifiable final answer, enabling rule-based
RL, and three distinct R1-generated solutions suitable for diverse training
paradigms like supervised fine-tuning or distillation. Spanning a wide range of
mathematical topics, DeepMath-103K promotes the development of generalizable
reasoning. We demonstrate that models trained on DeepMath-103K achieve
significant improvements on challenging mathematical benchmarks, validating its
effectiveness. We release DeepMath-103K publicly to facilitate community
progress in building more capable AI reasoning systems:
https://github.com/zwhe99/DeepMath.Summary
AI-Generated Summary