Skywork-Math: 대규모 언어 모델의 수학적 추론을 위한 데이터 스케일링 법칙 -- 이야기는 계속된다
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
July 11, 2024
저자: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
초록
본 논문에서는 대규모 언어 모델(LLMs)의 수학적 추론 능력을 향상시킬 수 있는 잠재적 요인들을 탐구한다. 우리는 현대 LLMs의 수학적 추론 능력에 대한 데이터 스케일링 법칙이 아직 포화 상태에 이르지 않았음을 주장하며, 데이터 양의 증가에 따라 모델의 품질이 어떻게 개선되는지를 강조한다. 이를 뒷받침하기 위해, 우리는 제안된 2.5M 인스턴스의 Skywork-MathQA 데이터셋을 사용하여 일반적인 7B LLMs에 지도 미세 조정(SFT)을 적용한 Skywork-Math 모델 시리즈를 소개한다. Skywork-Math 7B는 SFT 데이터만을 사용하여 경쟁 수준의 MATH 벤치마크에서 51.2%, GSM8K 벤치마크에서 83.9%의 인상적인 정확도를 달성했으며, MATH에서 초기 버전의 GPT-4를 능가했다. Skywork-Math 모델의 우수한 성능은 두 단계의 데이터 합성 및 모델 SFT 파이프라인에 기인하며, 이는 세 가지 다른 증강 방법과 다양한 시드 문제 세트를 포함하여 Skywork-MathQA 데이터셋의 양과 질을 다양한 난이도 수준에서 보장한다. 무엇보다도, 우리는 연구 및 산업 응용을 위해 LLMs의 수학적 추론 능력을 향상시키기 위한 여러 실용적인 시사점을 제공한다.
English
In this paper, we investigate the underlying factors that potentially enhance
the mathematical reasoning capabilities of large language models (LLMs). We
argue that the data scaling law for math reasoning capabilities in modern LLMs
is far from being saturated, highlighting how the model's quality improves with
increases in data quantity. To support this claim, we introduce the
Skywork-Math model series, supervised fine-tuned (SFT) on common 7B LLMs using
our proposed 2.5M-instance Skywork-MathQA dataset. Skywork-Math 7B has achieved
impressive accuracies of 51.2% on the competition-level MATH benchmark and
83.9% on the GSM8K benchmark using only SFT data, outperforming an early
version of GPT-4 on MATH. The superior performance of Skywork-Math models
contributes to our novel two-stage data synthesis and model SFT pipelines,
which include three different augmentation methods and a diverse seed problem
set, ensuring both the quantity and quality of Skywork-MathQA dataset across
varying difficulty levels. Most importantly, we provide several practical
takeaways to enhance math reasoning abilities in LLMs for both research and
industry applications.Summary
AI-Generated Summary