Goat: Gefinetuned LLaMA presteert beter dan GPT-4 bij rekenkundige taken
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Auteurs: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Samenvatting
We introduceren Goat, een fijn afgestemd LLaMA-model dat aanzienlijk beter presteert dan GPT-4 op een reeks rekenkundige taken. Gefinetuned op een synthetisch gegenereerde dataset, behaalt Goat state-of-the-art prestaties op de rekenkundige subtaak van BIG-bench. In het bijzonder evenaart of overtreft de zero-shot Goat-7B zelfs de nauwkeurigheid die wordt bereikt door de few-shot PaLM-540B. Verrassend genoeg kan Goat bijna perfecte nauwkeurigheid bereiken op optellen en aftrekken van grote getallen door alleen supervised finetuning, wat bijna onmogelijk is met eerder getrainde taalmodellen, zoals Bloom, OPT, GPT-NeoX, enz. We schrijven de uitzonderlijke prestaties van Goat toe aan de consistente tokenisatie van getallen door LLaMA. Om uitdagendere taken zoals vermenigvuldigen en delen van grote getallen aan te pakken, stellen we een aanpak voor die taken classificeert op basis van hun leerbaarheid, en vervolgens onleerbare taken, zoals vermenigvuldigen en delen van meerdere cijfers, opsplitst in een reeks leerbare taken door gebruik te maken van basis rekenkundige principes. We onderzoeken grondig de prestaties van ons model en bieden een uitgebreide evaluatie van de effectiviteit van onze voorgestelde decompositie stappen. Bovendien kan Goat-7B eenvoudig worden getraind met LoRA op een GPU met 24GB VRAM, wat reproduceerbaarheid voor andere onderzoekers vergemakkelijkt. We geven ons model, de dataset en het Python-script voor datasetgeneratie vrij.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.