DeepSeekMath: Expandindo os Limites do Raciocínio Matemático em Modelos de Linguagem Aberta

Resumo

O raciocínio matemático representa um desafio significativo para modelos de linguagem devido à sua natureza complexa e estruturada. Neste artigo, apresentamos o DeepSeekMath 7B, que continua o pré-treinamento do DeepSeek-Coder-Base-v1.5 7B com 120 bilhões de tokens relacionados à matemática obtidos do Common Crawl, juntamente com dados de linguagem natural e código. O DeepSeekMath 7B alcançou uma pontuação impressionante de 51,7% no benchmark MATH de nível competitivo, sem depender de ferramentas externas ou técnicas de votação, aproximando-se do desempenho do Gemini-Ultra e do GPT-4. A auto-consistência em 64 amostras do DeepSeekMath 7B atingiu 60,9% no MATH. A capacidade de raciocínio matemático do DeepSeekMath é atribuída a dois fatores principais: primeiro, aproveitamos o potencial significativo dos dados públicos da web por meio de um pipeline de seleção de dados meticulosamente projetado. Segundo, introduzimos o Group Relative Policy Optimization (GRPO), uma variante do Proximal Policy Optimization (PPO), que aprimora as habilidades de raciocínio matemático enquanto otimiza simultaneamente o uso de memória do PPO.

English

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

DeepSeekMath: Expandindo os Limites do Raciocínio Matemático em Modelos de Linguagem Aberta

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Resumo

Support