DeepMath-103K: Een grootschalige, uitdagende, gezuiverde en verifieerbare wiskundige dataset voor het bevorderen van redeneervaardigheden

Samenvatting

Het vermogen voor complex wiskundig redeneren is een belangrijke maatstaf voor kunstmatige intelligentie. Hoewel reinforcement learning (RL) toegepast op LLM's veelbelovend is, wordt de vooruitgang aanzienlijk belemmerd door het gebrek aan grootschalige trainingsdata die voldoende uitdagend is, verifieerbare antwoordformaten heeft die geschikt zijn voor RL, en vrij is van contaminatie met evaluatiebenchmarks. Om deze beperkingen aan te pakken, introduceren we DeepMath-103K, een nieuwe, grootschalige dataset bestaande uit ongeveer 103K wiskundige problemen, specifiek ontworpen om geavanceerde redeneermodellen te trainen via RL. DeepMath-103K is samengesteld via een rigoureus proces dat bronanalyse, strikte decontaminatie tegen talrijke benchmarks, en filtering voor hoge moeilijkheidsgraad (voornamelijk niveaus 5-9) omvat, wat de uitdaging aanzienlijk overstijgt van bestaande open bronnen. Elk probleem bevat een verifieerbaar eindantwoord, waardoor regelgebaseerde RL mogelijk is, en drie verschillende R1-gegenereerde oplossingen die geschikt zijn voor diverse trainingsparadigma's zoals supervised fine-tuning of distillatie. Met een breed scala aan wiskundige onderwerpen bevordert DeepMath-103K de ontwikkeling van generaliseerbaar redeneren. We tonen aan dat modellen getraind op DeepMath-103K aanzienlijke verbeteringen laten zien op uitdagende wiskundige benchmarks, wat de effectiviteit ervan valideert. We maken DeepMath-103K publiekelijk beschikbaar om de voortgang van de gemeenschap te faciliteren in het bouwen van krachtigere AI-redeneersystemen: https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K: Een grootschalige, uitdagende, gezuiverde en verifieerbare wiskundige dataset voor het bevorderen van redeneervaardigheden

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Samenvatting

Support