ChatPaper.aiChatPaper

DeepMath-103K: Um Conjunto de Dados Matemáticos de Grande Escala, Desafiador, Descontaminado e Verificável para Avançar o Raciocínio

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

April 15, 2025
Autores: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Resumo

A capacidade de raciocínio matemático complexo é um marco fundamental para a inteligência artificial. Embora o aprendizado por reforço (RL) aplicado a LLMs mostre potencial, o progresso é significativamente limitado pela escassez de dados de treinamento em grande escala que sejam suficientemente desafiadores, possuam formatos de resposta verificáveis adequados para RL e estejam livres de contaminação com benchmarks de avaliação. Para superar essas limitações, apresentamos o DeepMath-103K, um novo conjunto de dados em larga escala composto por aproximadamente 103 mil problemas matemáticos, especificamente projetado para treinar modelos avançados de raciocínio via RL. O DeepMath-103K é curado por meio de um pipeline rigoroso que envolve análise de fontes, descontaminação rigorosa em relação a diversos benchmarks e filtragem para alta dificuldade (principalmente níveis 5-9), superando significativamente os recursos abertos existentes em termos de desafio. Cada problema inclui uma resposta final verificável, permitindo RL baseado em regras, e três soluções distintas geradas por R1 adequadas para diversos paradigmas de treinamento, como ajuste fino supervisionado ou destilação. Abrangendo uma ampla gama de tópicos matemáticos, o DeepMath-103K promove o desenvolvimento de raciocínio generalizável. Demonstramos que modelos treinados com o DeepMath-103K alcançam melhorias significativas em benchmarks matemáticos desafiadores, validando sua eficácia. Disponibilizamos o DeepMath-103K publicamente para facilitar o progresso da comunidade na construção de sistemas de raciocínio de IA mais capazes: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

Summary

AI-Generated Summary

PDF126April 16, 2025