DeepSeekMath: De Grenzen Verleggen van Wiskundig Redeneren in Open Taalmodellen
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
February 5, 2024
Auteurs: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
cs.AI
Samenvatting
Wiskundig redeneren vormt een aanzienlijke uitdaging voor taalmodellen vanwege de complexe en gestructureerde aard ervan. In dit artikel introduceren we DeepSeekMath 7B, dat voortbouwt op het vooraf trainen van DeepSeek-Coder-Base-v1.5 7B met 120B wiskundige tokens afkomstig van Common Crawl, samen met natuurlijke taal- en coderingsdata. DeepSeekMath 7B heeft een indrukwekkende score van 51,7% behaald op het competitieniveau MATH-benchmark zonder gebruik te maken van externe toolkits en stemtechnieken, wat het prestatieniveau van Gemini-Ultra en GPT-4 benadert. Zelfconsistentie over 64 samples van DeepSeekMath 7B behaalt 60,9% op MATH. Het wiskundig redeneervermogen van DeepSeekMath is toe te schrijven aan twee belangrijke factoren: Ten eerste benutten we het aanzienlijke potentieel van publiek beschikbare webdata via een zorgvuldig ontworpen dataselectiepijplijn. Ten tweede introduceren we Group Relative Policy Optimization (GRPO), een variant van Proximal Policy Optimization (PPO), dat het wiskundig redeneervermogen versterkt terwijl het geheugengebruik van PPO gelijktijdig wordt geoptimaliseerd.
English
Mathematical reasoning poses a significant challenge for language models due
to its complex and structured nature. In this paper, we introduce DeepSeekMath
7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B
math-related tokens sourced from Common Crawl, together with natural language
and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the
competition-level MATH benchmark without relying on external toolkits and
voting techniques, approaching the performance level of Gemini-Ultra and GPT-4.
Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH.
The mathematical reasoning capability of DeepSeekMath is attributed to two key
factors: First, we harness the significant potential of publicly available web
data through a meticulously engineered data selection pipeline. Second, we
introduce Group Relative Policy Optimization (GRPO), a variant of Proximal
Policy Optimization (PPO), that enhances mathematical reasoning abilities while
concurrently optimizing the memory usage of PPO.