DeepMath-103K: Um Conjunto de Dados Matemáticos de Grande Escala, Desafiador, Descontaminado e Verificável para Avançar o Raciocínio

Resumo

A capacidade de raciocínio matemático complexo é um marco fundamental para a inteligência artificial. Embora o aprendizado por reforço (RL) aplicado a LLMs mostre potencial, o progresso é significativamente limitado pela escassez de dados de treinamento em grande escala que sejam suficientemente desafiadores, possuam formatos de resposta verificáveis adequados para RL e estejam livres de contaminação com benchmarks de avaliação. Para superar essas limitações, apresentamos o DeepMath-103K, um novo conjunto de dados em larga escala composto por aproximadamente 103 mil problemas matemáticos, especificamente projetado para treinar modelos avançados de raciocínio via RL. O DeepMath-103K é curado por meio de um pipeline rigoroso que envolve análise de fontes, descontaminação rigorosa em relação a diversos benchmarks e filtragem para alta dificuldade (principalmente níveis 5-9), superando significativamente os recursos abertos existentes em termos de desafio. Cada problema inclui uma resposta final verificável, permitindo RL baseado em regras, e três soluções distintas geradas por R1 adequadas para diversos paradigmas de treinamento, como ajuste fino supervisionado ou destilação. Abrangendo uma ampla gama de tópicos matemáticos, o DeepMath-103K promove o desenvolvimento de raciocínio generalizável. Demonstramos que modelos treinados com o DeepMath-103K alcançam melhorias significativas em benchmarks matemáticos desafiadores, validando sua eficácia. Disponibilizamos o DeepMath-103K publicamente para facilitar o progresso da comunidade na construção de sistemas de raciocínio de IA mais capazes: https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K: Um Conjunto de Dados Matemáticos de Grande Escala, Desafiador, Descontaminado e Verificável para Avançar o Raciocínio

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Resumo

Summary

Support

Support