ChatPaper.aiChatPaper

Skywork-Math: Leis de Escala de Dados para Raciocínio Matemático em Modelos de Linguagem Grandes -- A História Continua

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

July 11, 2024
Autores: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Resumo

Neste artigo, investigamos os fatores subjacentes que potencialmente aprimoram as capacidades de raciocínio matemático de grandes modelos de linguagem (LLMs). Argumentamos que a lei de escalonamento de dados para capacidades de raciocínio matemático em LLMs modernos está longe de estar saturada, destacando como a qualidade do modelo melhora com o aumento da quantidade de dados. Para apoiar essa afirmação, introduzimos a série de modelos Skywork-Math, ajustados finamente supervisionados (SFT) em LLMs comuns de 7B usando nosso conjunto de dados Skywork-MathQA de 2,5 milhões de instâncias proposto. O Skywork-Math 7B alcançou precisões impressionantes de 51,2% no benchmark matemático de nível de competição e 83,9% no benchmark GSM8K usando apenas dados SFT, superando uma versão anterior do GPT-4 em matemática. O desempenho superior dos modelos Skywork-Math contribui para nossos novos pipelines de síntese de dados em duas etapas e ajuste fino do modelo, que incluem três métodos diferentes de aumento e um conjunto diversificado de problemas iniciais, garantindo tanto a quantidade quanto a qualidade do conjunto de dados Skywork-MathQA em diferentes níveis de dificuldade. Mais importante ainda, fornecemos várias lições práticas para aprimorar as habilidades de raciocínio matemático em LLMs para aplicações de pesquisa e indústria.
English
In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.
PDF535November 28, 2024