DeepMath-103K: Een grootschalige, uitdagende, gezuiverde en verifieerbare wiskundige dataset voor het bevorderen van redeneervaardigheden
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
April 15, 2025
Auteurs: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Het vermogen voor complex wiskundig redeneren is een belangrijke maatstaf voor kunstmatige intelligentie. Hoewel reinforcement learning (RL) toegepast op LLM's veelbelovend is, wordt de vooruitgang aanzienlijk belemmerd door het gebrek aan grootschalige trainingsdata die voldoende uitdagend is, verifieerbare antwoordformaten heeft die geschikt zijn voor RL, en vrij is van contaminatie met evaluatiebenchmarks. Om deze beperkingen aan te pakken, introduceren we DeepMath-103K, een nieuwe, grootschalige dataset bestaande uit ongeveer 103K wiskundige problemen, specifiek ontworpen om geavanceerde redeneermodellen te trainen via RL. DeepMath-103K is samengesteld via een rigoureus proces dat bronanalyse, strikte decontaminatie tegen talrijke benchmarks, en filtering voor hoge moeilijkheidsgraad (voornamelijk niveaus 5-9) omvat, wat de uitdaging aanzienlijk overstijgt van bestaande open bronnen. Elk probleem bevat een verifieerbaar eindantwoord, waardoor regelgebaseerde RL mogelijk is, en drie verschillende R1-gegenereerde oplossingen die geschikt zijn voor diverse trainingsparadigma's zoals supervised fine-tuning of distillatie. Met een breed scala aan wiskundige onderwerpen bevordert DeepMath-103K de ontwikkeling van generaliseerbaar redeneren. We tonen aan dat modellen getraind op DeepMath-103K aanzienlijke verbeteringen laten zien op uitdagende wiskundige benchmarks, wat de effectiviteit ervan valideert. We maken DeepMath-103K publiekelijk beschikbaar om de voortgang van de gemeenschap te faciliteren in het bouwen van krachtigere AI-redeneersystemen: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for
artificial intelligence. While reinforcement learning (RL) applied to LLMs
shows promise, progress is significantly hindered by the lack of large-scale
training data that is sufficiently challenging, possesses verifiable answer
formats suitable for RL, and is free from contamination with evaluation
benchmarks. To address these limitations, we introduce DeepMath-103K, a new,
large-scale dataset comprising approximately 103K mathematical problems,
specifically designed to train advanced reasoning models via RL. DeepMath-103K
is curated through a rigorous pipeline involving source analysis, stringent
decontamination against numerous benchmarks, and filtering for high difficulty
(primarily Levels 5-9), significantly exceeding existing open resources in
challenge. Each problem includes a verifiable final answer, enabling rule-based
RL, and three distinct R1-generated solutions suitable for diverse training
paradigms like supervised fine-tuning or distillation. Spanning a wide range of
mathematical topics, DeepMath-103K promotes the development of generalizable
reasoning. We demonstrate that models trained on DeepMath-103K achieve
significant improvements on challenging mathematical benchmarks, validating its
effectiveness. We release DeepMath-103K publicly to facilitate community
progress in building more capable AI reasoning systems:
https://github.com/zwhe99/DeepMath.Summary
AI-Generated Summary