DeepSeekMath: Spingere i Limiti del Ragionamento Matematico nei Modelli Linguistici Aperti

Abstract

Il ragionamento matematico rappresenta una sfida significativa per i modelli linguistici a causa della sua natura complessa e strutturata. In questo articolo, presentiamo DeepSeekMath 7B, che continua il pre-addestramento di DeepSeek-Coder-Base-v1.5 7B con 120 miliardi di token relativi alla matematica provenienti da Common Crawl, insieme a dati di linguaggio naturale e codice. DeepSeekMath 7B ha ottenuto un punteggio impressionante del 51,7% sul benchmark MATH di livello competitivo senza fare affidamento su toolkit esterni e tecniche di voto, avvicinandosi alle prestazioni di Gemini-Ultra e GPT-4. La coerenza interna su 64 campioni di DeepSeekMath 7B raggiunge il 60,9% su MATH. La capacità di ragionamento matematico di DeepSeekMath è attribuita a due fattori chiave: in primo luogo, sfruttiamo il potenziale significativo dei dati web pubblicamente disponibili attraverso una pipeline di selezione dei dati meticolosamente progettata. In secondo luogo, introduciamo l'ottimizzazione delle politiche relative ai gruppi (GRPO), una variante dell'ottimizzazione delle politiche prossimali (PPO), che migliora le capacità di ragionamento matematico ottimizzando contemporaneamente l'uso della memoria di PPO.

English

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

DeepSeekMath: Spingere i Limiti del Ragionamento Matematico nei Modelli Linguistici Aperti

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Abstract

Support