ChatPaper.aiChatPaper

Skywork-Math: Leggi di Scalabilità dei Dati per il Ragionamento Matematico nei Modelli Linguistici di Grande Dimensione -- La Storia Continua

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

July 11, 2024
Autori: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Abstract

In questo articolo, indaghiamo i fattori sottostanti che potenzialmente migliorano le capacità di ragionamento matematico dei grandi modelli linguistici (LLM). Sosteniamo che la legge di scala dei dati per le capacità di ragionamento matematico nei moderni LLM è ben lontana dall'essere saturata, evidenziando come la qualità del modello migliori con l'aumento della quantità di dati. Per supportare questa affermazione, introduciamo la serie di modelli Skywork-Math, sottoposti a fine-tuning supervisionato (SFT) su comuni LLM da 7B utilizzando il nostro dataset Skywork-MathQA da 2,5 milioni di istanze. Skywork-Math 7B ha raggiunto impressionanti accuratezze del 51,2% sul benchmark MATH di livello competitivo e dell'83,9% sul benchmark GSM8K utilizzando solo dati SFT, superando una versione iniziale di GPT-4 su MATH. La performance superiore dei modelli Skywork-Math è attribuita alle nostre innovative pipeline di sintesi dei dati in due fasi e di SFT del modello, che includono tre diversi metodi di aumento e un insieme diversificato di problemi iniziali, garantendo sia la quantità che la qualità del dataset Skywork-MathQA su diversi livelli di difficoltà. Soprattutto, forniamo diversi spunti pratici per migliorare le capacità di ragionamento matematico negli LLM, sia per la ricerca che per le applicazioni industriali.
English
In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the data scaling law for math reasoning capabilities in modern LLMs is far from being saturated, highlighting how the model's quality improves with increases in data quantity. To support this claim, we introduce the Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved impressive accuracies of 51.2% on the competition-level MATH benchmark and 83.9% on the GSM8K benchmark using only SFT data, outperforming an early version of GPT-4 on MATH. The superior performance of Skywork-Math models contributes to our novel two-stage data synthesis and model SFT pipelines, which include three different augmentation methods and a diverse seed problem set, ensuring both the quantity and quality of Skywork-MathQA dataset across varying difficulty levels. Most importantly, we provide several practical takeaways to enhance math reasoning abilities in LLMs for both research and industry applications.
PDF525November 28, 2024