Goat: Feinabgestimmtes LLaMA übertrifft GPT-4 bei arithmetischen Aufgaben
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Autoren: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Zusammenfassung
Wir stellen Goat vor, ein feinabgestimmtes LLaMA-Modell, das GPT-4 bei einer Reihe von arithmetischen Aufgaben deutlich übertrifft. Durch Feinabstimmung auf einem synthetisch generierten Datensatz erreicht Goat state-of-the-art Leistung bei der BIG-bench Arithmetik-Unteraufgabe. Insbesondere erreicht das Zero-Shot Goat-7B die Genauigkeit des Few-Shot PaLM-540B oder übertrifft sie sogar. Überraschenderweise kann Goat durch überwachte Feinabstimmung nahezu perfekte Genauigkeit bei der Addition und Subtraktion großer Zahlen erreichen, was mit bisherigen vortrainierten Sprachmodellen wie Bloom, OPT, GPT-NeoX usw. nahezu unmöglich war. Wir führen die außergewöhnliche Leistung von Goat auf die konsistente Tokenisierung von Zahlen durch LLaMA zurück. Um anspruchsvollere Aufgaben wie die Multiplikation und Division großer Zahlen zu bewältigen, schlagen wir einen Ansatz vor, der Aufgaben basierend auf ihrer Erlernbarkeit klassifiziert und anschließend nicht erlernbare Aufgaben, wie mehrstellige Multiplikation und Division, durch die Nutzung grundlegender arithmetischer Prinzipien in eine Reihe von erlernbaren Aufgaben zerlegt. Wir untersuchen die Leistung unseres Modells gründlich und bieten eine umfassende Bewertung der Effektivität unserer vorgeschlagenen Zerlegungsschritte. Zudem kann Goat-7B einfach mit LoRA auf einer GPU mit 24 GB VRAM trainiert werden, was die Reproduzierbarkeit für andere Forscher erleichtert. Wir veröffentlichen unser Modell, den Datensatz und das Python-Skript zur Datensatzgenerierung.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.