DeepMath-103K: Ein umfangreicher, anspruchsvoller, bereinigter und verifizierbarer mathematischer Datensatz zur Förderung des logischen Denkens
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
April 15, 2025
Autoren: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Zusammenfassung
Die Fähigkeit zu komplexem mathematischem Denken ist ein zentraler Maßstab für künstliche Intelligenz. Obwohl Reinforcement Learning (RL), das auf Large Language Models (LLMs) angewendet wird, vielversprechend ist, wird der Fortschritt erheblich durch den Mangel an groß angelegten Trainingsdaten behindert, die ausreichend herausfordernd sind, überprüfbare Antwortformate für RL bieten und frei von Kontamination mit Evaluierungsbenchmarks sind. Um diese Einschränkungen zu überwinden, stellen wir DeepMath-103K vor, einen neuen, groß angelegten Datensatz, der etwa 103.000 mathematische Probleme umfasst und speziell dafür entwickelt wurde, fortschrittliche Denkmodelle durch RL zu trainieren. DeepMath-103K wird durch einen rigorosen Prozess kuratiert, der Quellenanalyse, strenge Dekontamination gegenüber zahlreichen Benchmarks und Filterung nach hohem Schwierigkeitsgrad (hauptsächlich Stufen 5-9) umfasst, wodurch es bestehende offene Ressourcen deutlich an Herausforderung übertrifft. Jedes Problem enthält eine überprüfbare Endantwort, die regelbasiertes RL ermöglicht, sowie drei verschiedene, durch R1 generierte Lösungen, die sich für verschiedene Trainingsparadigmen wie überwachtes Feintuning oder Distillation eignen. DeepMath-103K deckt ein breites Spektrum mathematischer Themen ab und fördert die Entwicklung generalisierbaren Denkens. Wir zeigen, dass Modelle, die auf DeepMath-103K trainiert werden, signifikante Verbesserungen bei anspruchsvollen mathematischen Benchmarks erzielen, was seine Wirksamkeit bestätigt. Wir veröffentlichen DeepMath-103K öffentlich, um den Fortschritt der Gemeinschaft beim Aufbau leistungsfähigerer KI-Denksysteme zu fördern: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for
artificial intelligence. While reinforcement learning (RL) applied to LLMs
shows promise, progress is significantly hindered by the lack of large-scale
training data that is sufficiently challenging, possesses verifiable answer
formats suitable for RL, and is free from contamination with evaluation
benchmarks. To address these limitations, we introduce DeepMath-103K, a new,
large-scale dataset comprising approximately 103K mathematical problems,
specifically designed to train advanced reasoning models via RL. DeepMath-103K
is curated through a rigorous pipeline involving source analysis, stringent
decontamination against numerous benchmarks, and filtering for high difficulty
(primarily Levels 5-9), significantly exceeding existing open resources in
challenge. Each problem includes a verifiable final answer, enabling rule-based
RL, and three distinct R1-generated solutions suitable for diverse training
paradigms like supervised fine-tuning or distillation. Spanning a wide range of
mathematical topics, DeepMath-103K promotes the development of generalizable
reasoning. We demonstrate that models trained on DeepMath-103K achieve
significant improvements on challenging mathematical benchmarks, validating its
effectiveness. We release DeepMath-103K publicly to facilitate community
progress in building more capable AI reasoning systems:
https://github.com/zwhe99/DeepMath.Summary
AI-Generated Summary