DeepSeekMath: Llevando al Límite el Razonamiento Matemático en Modelos de Lenguaje Abierto
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
February 5, 2024
Autores: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
cs.AI
Resumen
El razonamiento matemático representa un desafío significativo para los modelos de lenguaje debido a su naturaleza compleja y estructurada. En este artículo, presentamos DeepSeekMath 7B, que continúa el pre-entrenamiento de DeepSeek-Coder-Base-v1.5 7B con 120 mil millones de tokens relacionados con matemáticas obtenidos de Common Crawl, junto con datos de lenguaje natural y código. DeepSeekMath 7B ha logrado un impresionante puntaje del 51.7% en el benchmark MATH de nivel competitivo sin depender de herramientas externas ni técnicas de votación, acercándose al nivel de rendimiento de Gemini-Ultra y GPT-4. La auto-consistencia sobre 64 muestras de DeepSeekMath 7B alcanza un 60.9% en MATH. La capacidad de razonamiento matemático de DeepSeekMath se atribuye a dos factores clave: primero, aprovechamos el potencial significativo de los datos web disponibles públicamente a través de una canalización de selección de datos meticulosamente diseñada. Segundo, introducimos Group Relative Policy Optimization (GRPO), una variante de Proximal Policy Optimization (PPO), que mejora las habilidades de razonamiento matemático mientras optimiza simultáneamente el uso de memoria de PPO.
English
Mathematical reasoning poses a significant challenge for language models due
to its complex and structured nature. In this paper, we introduce DeepSeekMath
7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B
math-related tokens sourced from Common Crawl, together with natural language
and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the
competition-level MATH benchmark without relying on external toolkits and
voting techniques, approaching the performance level of Gemini-Ultra and GPT-4.
Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH.
The mathematical reasoning capability of DeepSeekMath is attributed to two key
factors: First, we harness the significant potential of publicly available web
data through a meticulously engineered data selection pipeline. Second, we
introduce Group Relative Policy Optimization (GRPO), a variant of Proximal
Policy Optimization (PPO), that enhances mathematical reasoning abilities while
concurrently optimizing the memory usage of PPO.