DeepSeekMath: Die Grenzen des mathematischen Denkens in offenen Sprachmodellen erweitern
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
February 5, 2024
Autoren: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
cs.AI
Zusammenfassung
Mathematisches Denken stellt für Sprachmodelle eine erhebliche Herausforderung dar, da es komplex und strukturiert ist. In diesem Artikel stellen wir DeepSeekMath 7B vor, das durch Fortsetzung des Vortrainings von DeepSeek-Coder-Base-v1.5 7B mit 120B mathematikbezogenen Tokens aus Common Crawl, zusammen mit natürlicher Sprache und Code-Daten, entwickelt wurde. DeepSeekMath 7B hat einen beeindruckenden Wert von 51,7 % auf dem wettbewerbsorientierten MATH-Benchmark erreicht, ohne auf externe Toolkits oder Abstimmungstechniken zurückzugreifen, und nähert sich damit der Leistungsfähigkeit von Gemini-Ultra und GPT-4. Selbstkonsistenz über 64 Stichproben von DeepSeekMath 7B erreicht 60,9 % auf MATH. Die mathematische Denkfähigkeit von DeepSeekMath ist auf zwei Schlüsselfaktoren zurückzuführen: Erstens nutzen wir das erhebliche Potenzial öffentlich verfügbarer Webdaten durch eine sorgfältig konstruierte Datenauswahlpipeline. Zweitens führen wir Group Relative Policy Optimization (GRPO) ein, eine Variante von Proximal Policy Optimization (PPO), die die mathematischen Denkfähigkeiten verbessert und gleichzeitig den Speicherverbrauch von PPO optimiert.
English
Mathematical reasoning poses a significant challenge for language models due
to its complex and structured nature. In this paper, we introduce DeepSeekMath
7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B
math-related tokens sourced from Common Crawl, together with natural language
and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the
competition-level MATH benchmark without relying on external toolkits and
voting techniques, approaching the performance level of Gemini-Ultra and GPT-4.
Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH.
The mathematical reasoning capability of DeepSeekMath is attributed to two key
factors: First, we harness the significant potential of publicly available web
data through a meticulously engineered data selection pipeline. Second, we
introduce Group Relative Policy Optimization (GRPO), a variant of Proximal
Policy Optimization (PPO), that enhances mathematical reasoning abilities while
concurrently optimizing the memory usage of PPO.