Goat: LLaMA ottimizzato supera GPT-4 nei compiti aritmetici
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Autori: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Abstract
Presentiamo Goat, un modello LLaMA fine-tuned che supera significativamente GPT-4 in una gamma di compiti aritmetici. Addestrato su un dataset generato sinteticamente, Goat raggiunge prestazioni all'avanguardia nel sottocompito aritmetico di BIG-bench. In particolare, Goat-7B in modalità zero-shot eguaglia o addirittura supera l'accuratezza ottenuta da PaLM-540B in modalità few-shot. Sorprendentemente, Goat può raggiungere un'accuratezza quasi perfetta nell'addizione e sottrazione di numeri grandi attraverso il solo fine-tuning supervisionato, cosa quasi impossibile con precedenti modelli linguistici pre-addestrati come Bloom, OPT, GPT-NeoX, ecc. Attribuiamo l'eccezionale performance di Goat alla tokenizzazione coerente dei numeri di LLaMA. Per affrontare compiti più complessi come la moltiplicazione e divisione di numeri grandi, proponiamo un approccio che classifica i compiti in base alla loro apprendibilità, e successivamente scompone i compiti non apprendibili, come la moltiplicazione e divisione a più cifre, in una serie di compiti apprendibili sfruttando i principi aritmetici di base. Esaminiamo approfonditamente le prestazioni del nostro modello, offrendo una valutazione completa dell'efficacia dei nostri passaggi di scomposizione proposti. Inoltre, Goat-7B può essere facilmente addestrato utilizzando LoRA su una GPU con 24GB di VRAM, facilitando la riproducibilità per altri ricercatori. Rilasciamo il nostro modello, il dataset e lo script Python per la generazione del dataset.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.