Goat : LLaMA affiné surpasse GPT-4 dans les tâches arithmétiques
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Auteurs: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Résumé
Nous présentons Goat, un modèle LLaMA affiné qui surpasse significativement GPT-4 sur une série de tâches arithmétiques. Affiné sur un ensemble de données généré de manière synthétique, Goat atteint des performances de pointe sur la sous-tâche arithmétique de BIG-bench. En particulier, Goat-7B en mode zero-shot égalise ou dépasse même la précision obtenue par PaLM-540B en mode few-shot. Étonnamment, Goat peut atteindre une précision quasi parfaite sur l'addition et la soustraction de grands nombres grâce à un affinage supervisé uniquement, ce qui était presque impossible avec les modèles de langage pré-entraînés précédents, tels que Bloom, OPT, GPT-NeoX, etc. Nous attribuons les performances exceptionnelles de Goat à la tokenisation cohérente des nombres par LLaMA. Pour aborder des tâches plus complexes comme la multiplication et la division de grands nombres, nous proposons une approche qui classe les tâches en fonction de leur apprenabilité, puis décompose les tâches non apprenables, telles que la multiplication et la division à plusieurs chiffres, en une série de tâches apprenables en exploitant les principes de base de l'arithmétique. Nous examinons minutieusement les performances de notre modèle, offrant une évaluation complète de l'efficacité de nos étapes de décomposition proposées. De plus, Goat-7B peut être facilement entraîné en utilisant LoRA sur un GPU avec 24 Go de VRAM, facilitant ainsi la reproductibilité pour d'autres chercheurs. Nous publions notre modèle, l'ensemble de données et le script Python pour la génération de l'ensemble de données.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.