DeepSeekMath : Repousser les limites du raisonnement mathématique dans les modèles de langage ouverts

papers.abstract

Le raisonnement mathématique représente un défi majeur pour les modèles de langage en raison de sa nature complexe et structurée. Dans cet article, nous présentons DeepSeekMath 7B, qui poursuit le pré-entraînement de DeepSeek-Coder-Base-v1.5 7B avec 120 milliards de tokens liés aux mathématiques, extraits de Common Crawl, ainsi que des données en langage naturel et en code. DeepSeekMath 7B a obtenu un score impressionnant de 51,7 % sur le benchmark MATH de niveau compétition, sans recourir à des outils externes ni à des techniques de vote, approchant ainsi les performances de Gemini-Ultra et GPT-4. La cohérence interne sur 64 échantillons de DeepSeekMath 7B atteint 60,9 % sur MATH. La capacité de raisonnement mathématique de DeepSeekMath est attribuée à deux facteurs clés : Premièrement, nous exploitons le potentiel significatif des données web publiques grâce à un pipeline de sélection de données soigneusement conçu. Deuxièmement, nous introduisons l'Optimisation de Politique Relative par Groupe (GRPO), une variante de l'Optimisation de Politique Proximale (PPO), qui améliore les capacités de raisonnement mathématique tout en optimisant simultanément l'utilisation de la mémoire de PPO.

English

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

DeepSeekMath : Repousser les limites du raisonnement mathématique dans les modèles de langage ouverts

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

papers.abstract

Support