DeepSeekMath: Expandindo os Limites do Raciocínio Matemático em Modelos de Linguagem Aberta
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
February 5, 2024
Autores: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
cs.AI
Resumo
O raciocínio matemático representa um desafio significativo para modelos de linguagem devido à sua natureza complexa e estruturada. Neste artigo, apresentamos o DeepSeekMath 7B, que continua o pré-treinamento do DeepSeek-Coder-Base-v1.5 7B com 120 bilhões de tokens relacionados à matemática obtidos do Common Crawl, juntamente com dados de linguagem natural e código. O DeepSeekMath 7B alcançou uma pontuação impressionante de 51,7% no benchmark MATH de nível competitivo, sem depender de ferramentas externas ou técnicas de votação, aproximando-se do desempenho do Gemini-Ultra e do GPT-4. A auto-consistência em 64 amostras do DeepSeekMath 7B atingiu 60,9% no MATH. A capacidade de raciocínio matemático do DeepSeekMath é atribuída a dois fatores principais: primeiro, aproveitamos o potencial significativo dos dados públicos da web por meio de um pipeline de seleção de dados meticulosamente projetado. Segundo, introduzimos o Group Relative Policy Optimization (GRPO), uma variante do Proximal Policy Optimization (PPO), que aprimora as habilidades de raciocínio matemático enquanto otimiza simultaneamente o uso de memória do PPO.
English
Mathematical reasoning poses a significant challenge for language models due
to its complex and structured nature. In this paper, we introduce DeepSeekMath
7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B
math-related tokens sourced from Common Crawl, together with natural language
and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the
competition-level MATH benchmark without relying on external toolkits and
voting techniques, approaching the performance level of Gemini-Ultra and GPT-4.
Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH.
The mathematical reasoning capability of DeepSeekMath is attributed to two key
factors: First, we harness the significant potential of publicly available web
data through a meticulously engineered data selection pipeline. Second, we
introduce Group Relative Policy Optimization (GRPO), a variant of Proximal
Policy Optimization (PPO), that enhances mathematical reasoning abilities while
concurrently optimizing the memory usage of PPO.