Goat: Gefinetuned LLaMA presteert beter dan GPT-4 bij rekenkundige taken

Samenvatting

We introduceren Goat, een fijn afgestemd LLaMA-model dat aanzienlijk beter presteert dan GPT-4 op een reeks rekenkundige taken. Gefinetuned op een synthetisch gegenereerde dataset, behaalt Goat state-of-the-art prestaties op de rekenkundige subtaak van BIG-bench. In het bijzonder evenaart of overtreft de zero-shot Goat-7B zelfs de nauwkeurigheid die wordt bereikt door de few-shot PaLM-540B. Verrassend genoeg kan Goat bijna perfecte nauwkeurigheid bereiken op optellen en aftrekken van grote getallen door alleen supervised finetuning, wat bijna onmogelijk is met eerder getrainde taalmodellen, zoals Bloom, OPT, GPT-NeoX, enz. We schrijven de uitzonderlijke prestaties van Goat toe aan de consistente tokenisatie van getallen door LLaMA. Om uitdagendere taken zoals vermenigvuldigen en delen van grote getallen aan te pakken, stellen we een aanpak voor die taken classificeert op basis van hun leerbaarheid, en vervolgens onleerbare taken, zoals vermenigvuldigen en delen van meerdere cijfers, opsplitst in een reeks leerbare taken door gebruik te maken van basis rekenkundige principes. We onderzoeken grondig de prestaties van ons model en bieden een uitgebreide evaluatie van de effectiviteit van onze voorgestelde decompositie stappen. Bovendien kan Goat-7B eenvoudig worden getraind met LoRA op een GPU met 24GB VRAM, wat reproduceerbaarheid voor andere onderzoekers vergemakkelijkt. We geven ons model, de dataset en het Python-script voor datasetgeneratie vrij.

English

We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat's exceptional performance to LLaMA's consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.

Goat: Gefinetuned LLaMA presteert beter dan GPT-4 bij rekenkundige taken

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

Samenvatting

Support