DeepSeekMath: Расширение границ математического мышления в открытых языковых моделях
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
February 5, 2024
Авторы: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
cs.AI
Аннотация
Математическое рассуждение представляет собой значительную проблему для языковых моделей из-за своей сложной и структурированной природы. В данной статье мы представляем DeepSeekMath 7B, которая продолжает предварительное обучение модели DeepSeek-Coder-Base-v1.5 7B на 120 миллиардах математических токенов, полученных из Common Crawl, вместе с данными на естественном языке и кодом. DeepSeekMath 7B достигла впечатляющего результата в 51,7% на конкурсном бенчмарке MATH без использования внешних инструментов и методов голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность на 64 выборках из DeepSeekMath 7B достигает 60,9% на MATH. Способность DeepSeekMath к математическому рассуждению обусловлена двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных через тщательно разработанный конвейер отбора данных. Во-вторых, мы представляем Group Relative Policy Optimization (GRPO), вариант Proximal Policy Optimization (PPO), который улучшает способности к математическому рассуждению, одновременно оптимизируя использование памяти PPO.
English
Mathematical reasoning poses a significant challenge for language models due
to its complex and structured nature. In this paper, we introduce DeepSeekMath
7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B
math-related tokens sourced from Common Crawl, together with natural language
and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the
competition-level MATH benchmark without relying on external toolkits and
voting techniques, approaching the performance level of Gemini-Ultra and GPT-4.
Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH.
The mathematical reasoning capability of DeepSeekMath is attributed to two key
factors: First, we harness the significant potential of publicly available web
data through a meticulously engineered data selection pipeline. Second, we
introduce Group Relative Policy Optimization (GRPO), a variant of Proximal
Policy Optimization (PPO), that enhances mathematical reasoning abilities while
concurrently optimizing the memory usage of PPO.