DeepMath-103K: Un conjunto de datos matemático a gran escala, desafiante, descontaminado y verificable para avanzar en el razonamiento

Resumen

La capacidad para el razonamiento matemático complejo es un punto de referencia clave para la inteligencia artificial. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) aplicado a los modelos de lenguaje grandes (LLMs) muestra promesa, el progreso se ve significativamente obstaculizado por la falta de datos de entrenamiento a gran escala que sean lo suficientemente desafiantes, posean formatos de respuestas verificables adecuados para RL y estén libres de contaminación con benchmarks de evaluación. Para abordar estas limitaciones, presentamos DeepMath-103K, un nuevo conjunto de datos a gran escala que comprende aproximadamente 103K problemas matemáticos, diseñado específicamente para entrenar modelos avanzados de razonamiento mediante RL. DeepMath-103K se ha curado a través de un proceso riguroso que incluye análisis de fuentes, descontaminación estricta frente a numerosos benchmarks y filtrado por alta dificultad (principalmente niveles 5-9), superando significativamente los recursos abiertos existentes en términos de desafío. Cada problema incluye una respuesta final verificable, lo que permite RL basado en reglas, y tres soluciones distintas generadas por R1 adecuadas para diversos paradigmas de entrenamiento, como el ajuste fino supervisado o la destilación. Abarcando una amplia gama de temas matemáticos, DeepMath-103K fomenta el desarrollo de un razonamiento generalizable. Demostramos que los modelos entrenados con DeepMath-103K logran mejoras significativas en benchmarks matemáticos desafiantes, validando su efectividad. Publicamos DeepMath-103K de manera abierta para facilitar el progreso de la comunidad en la construcción de sistemas de razonamiento de IA más capaces: https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K: Un conjunto de datos matemático a gran escala, desafiante, descontaminado y verificable para avanzar en el razonamiento

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Resumen

Support