ChatPaper.aiChatPaper

Goat: Feinabgestimmtes LLaMA übertrifft GPT-4 bei arithmetischen Aufgaben

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

May 23, 2023
Autoren: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI

Zusammenfassung

Wir stellen Goat vor, ein feinabgestimmtes LLaMA-Modell, das GPT-4 bei einer Reihe von arithmetischen Aufgaben deutlich übertrifft. Durch Feinabstimmung auf einem synthetisch generierten Datensatz erreicht Goat state-of-the-art Leistung bei der BIG-bench Arithmetik-Unteraufgabe. Insbesondere erreicht das Zero-Shot Goat-7B die Genauigkeit des Few-Shot PaLM-540B oder übertrifft sie sogar. Überraschenderweise kann Goat durch überwachte Feinabstimmung nahezu perfekte Genauigkeit bei der Addition und Subtraktion großer Zahlen erreichen, was mit bisherigen vortrainierten Sprachmodellen wie Bloom, OPT, GPT-NeoX usw. nahezu unmöglich war. Wir führen die außergewöhnliche Leistung von Goat auf die konsistente Tokenisierung von Zahlen durch LLaMA zurück. Um anspruchsvollere Aufgaben wie die Multiplikation und Division großer Zahlen zu bewältigen, schlagen wir einen Ansatz vor, der Aufgaben basierend auf ihrer Erlernbarkeit klassifiziert und anschließend nicht erlernbare Aufgaben, wie mehrstellige Multiplikation und Division, durch die Nutzung grundlegender arithmetischer Prinzipien in eine Reihe von erlernbaren Aufgaben zerlegt. Wir untersuchen die Leistung unseres Modells gründlich und bieten eine umfassende Bewertung der Effektivität unserer vorgeschlagenen Zerlegungsschritte. Zudem kann Goat-7B einfach mit LoRA auf einer GPU mit 24 GB VRAM trainiert werden, was die Reproduzierbarkeit für andere Forscher erleichtert. Wir veröffentlichen unser Modell, den Datensatz und das Python-Skript zur Datensatzgenerierung.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat's exceptional performance to LLaMA's consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.
PDF55December 15, 2024