DeepMath-103K: Un conjunto de datos matemático a gran escala, desafiante, descontaminado y verificable para avanzar en el razonamiento
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
April 15, 2025
Autores: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Resumen
La capacidad para el razonamiento matemático complejo es un punto de referencia clave para la inteligencia artificial. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) aplicado a los modelos de lenguaje grandes (LLMs) muestra promesa, el progreso se ve significativamente obstaculizado por la falta de datos de entrenamiento a gran escala que sean lo suficientemente desafiantes, posean formatos de respuestas verificables adecuados para RL y estén libres de contaminación con benchmarks de evaluación. Para abordar estas limitaciones, presentamos DeepMath-103K, un nuevo conjunto de datos a gran escala que comprende aproximadamente 103K problemas matemáticos, diseñado específicamente para entrenar modelos avanzados de razonamiento mediante RL. DeepMath-103K se ha curado a través de un proceso riguroso que incluye análisis de fuentes, descontaminación estricta frente a numerosos benchmarks y filtrado por alta dificultad (principalmente niveles 5-9), superando significativamente los recursos abiertos existentes en términos de desafío. Cada problema incluye una respuesta final verificable, lo que permite RL basado en reglas, y tres soluciones distintas generadas por R1 adecuadas para diversos paradigmas de entrenamiento, como el ajuste fino supervisado o la destilación. Abarcando una amplia gama de temas matemáticos, DeepMath-103K fomenta el desarrollo de un razonamiento generalizable. Demostramos que los modelos entrenados con DeepMath-103K logran mejoras significativas en benchmarks matemáticos desafiantes, validando su efectividad. Publicamos DeepMath-103K de manera abierta para facilitar el progreso de la comunidad en la construcción de sistemas de razonamiento de IA más capaces: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for
artificial intelligence. While reinforcement learning (RL) applied to LLMs
shows promise, progress is significantly hindered by the lack of large-scale
training data that is sufficiently challenging, possesses verifiable answer
formats suitable for RL, and is free from contamination with evaluation
benchmarks. To address these limitations, we introduce DeepMath-103K, a new,
large-scale dataset comprising approximately 103K mathematical problems,
specifically designed to train advanced reasoning models via RL. DeepMath-103K
is curated through a rigorous pipeline involving source analysis, stringent
decontamination against numerous benchmarks, and filtering for high difficulty
(primarily Levels 5-9), significantly exceeding existing open resources in
challenge. Each problem includes a verifiable final answer, enabling rule-based
RL, and three distinct R1-generated solutions suitable for diverse training
paradigms like supervised fine-tuning or distillation. Spanning a wide range of
mathematical topics, DeepMath-103K promotes the development of generalizable
reasoning. We demonstrate that models trained on DeepMath-103K achieve
significant improvements on challenging mathematical benchmarks, validating its
effectiveness. We release DeepMath-103K publicly to facilitate community
progress in building more capable AI reasoning systems:
https://github.com/zwhe99/DeepMath.Summary
AI-Generated Summary