DeepMath-103K : Un jeu de données mathématique à grande échelle, exigeant, décontaminé et vérifiable pour faire progresser le raisonnement

papers.abstract

La capacité à effectuer des raisonnements mathématiques complexes constitue un critère essentiel pour l'intelligence artificielle. Bien que l'apprentissage par renforcement (RL) appliqué aux LLM montre des résultats prometteurs, les progrès sont considérablement entravés par le manque de données d'entraînement à grande échelle suffisamment difficiles, possédant des formats de réponse vérifiables adaptés au RL, et exemptes de contamination avec les benchmarks d'évaluation. Pour pallier ces limitations, nous introduisons DeepMath-103K, un nouveau jeu de données à grande échelle comprenant environ 103 000 problèmes mathématiques, spécifiquement conçu pour entraîner des modèles de raisonnement avancés via le RL. DeepMath-103K est élaboré grâce à un pipeline rigoureux incluant l'analyse des sources, une décontamination stricte par rapport à de nombreux benchmarks, et un filtrage pour une difficulté élevée (principalement niveaux 5 à 9), dépassant significativement les ressources ouvertes existantes en termes de défi. Chaque problème comprend une réponse finale vérifiable, permettant un RL basé sur des règles, ainsi que trois solutions distinctes générées par R1 adaptées à divers paradigmes d'entraînement comme le fine-tuning supervisé ou la distillation. Couvrant un large éventail de sujets mathématiques, DeepMath-103K favorise le développement d'un raisonnement généralisable. Nous démontrons que les modèles entraînés sur DeepMath-103K obtiennent des améliorations significatives sur des benchmarks mathématiques difficiles, validant ainsi son efficacité. Nous rendons DeepMath-103K public afin de faciliter les progrès de la communauté dans la construction de systèmes de raisonnement IA plus performants : https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K : Un jeu de données mathématique à grande échelle, exigeant, décontaminé et vérifiable pour faire progresser le raisonnement

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

papers.abstract

Support