Goat: 미세 조정된 LLaMA가 산술 작업에서 GPT-4를 능가한다
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
저자: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
초록
우리는 다양한 산술 작업에서 GPT-4를 크게 능가하는 미세 조정된 LLaMA 모델인 Goat를 소개합니다. 합성적으로 생성된 데이터셋으로 미세 조정된 Goat는 BIG-bench 산술 하위 작업에서 최첨단 성능을 달성합니다. 특히, 제로샷 Goat-7B는 퓨샷 PaLM-540B가 달성한 정확도를 맞추거나 심지어 능가합니다. 놀랍게도, Goat는 지도 미세 조정만을 통해 대규모 숫자의 덧셈과 뺄셈에서 거의 완벽한 정확도를 달성할 수 있으며, 이는 Bloom, OPT, GPT-NeoX 등과 같은 이전의 사전 학습된 언어 모델로는 거의 불가능한 일이었습니다. 우리는 Goat의 탁월한 성능을 LLaMA의 일관된 숫자 토큰화에 기인한다고 설명합니다. 대규모 숫자의 곱셈과 나눗셈과 같은 더 어려운 작업을 해결하기 위해, 우리는 작업을 학습 가능성에 따라 분류하고, 다자리 곱셈과 나눗셈과 같은 학습 불가능한 작업을 기본 산술 원리를 활용하여 일련의 학습 가능한 작업으로 분해하는 접근 방식을 제안합니다. 우리는 모델의 성능을 철저히 검토하며, 제안된 분해 단계의 효과에 대한 포괄적인 평가를 제공합니다. 또한, Goat-7B는 24GB VRAM GPU에서 LoRA를 사용하여 쉽게 학습할 수 있어 다른 연구자들의 재현성을 용이하게 합니다. 우리는 모델, 데이터셋, 그리고 데이터셋 생성을 위한 Python 스크립트를 공개합니다.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.