Goat: LLaMA ajustado supera a GPT-4 en tareas aritméticas
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Autores: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Resumen
Presentamos Goat, un modelo LLaMA ajustado finamente que supera significativamente a GPT-4 en una variedad de tareas aritméticas. Ajustado en un conjunto de datos generado sintéticamente, Goat logra un rendimiento de vanguardia en la sub-tarea aritmética de BIG-bench. En particular, Goat-7B en modo zero-shot iguala o incluso supera la precisión alcanzada por PaLM-540B en modo few-shot. Sorprendentemente, Goat puede lograr una precisión casi perfecta en la suma y resta de números grandes mediante ajuste fino supervisado únicamente, algo casi imposible con modelos de lenguaje preentrenados anteriores, como Bloom, OPT, GPT-NeoX, etc. Atribuimos el rendimiento excepcional de Goat a la tokenización consistente de números en LLaMA. Para abordar tareas más desafiantes, como la multiplicación y división de números grandes, proponemos un enfoque que clasifica las tareas según su capacidad de aprendizaje y, posteriormente, descompone tareas no aprendibles, como la multiplicación y división de múltiples dígitos, en una serie de tareas aprendibles aprovechando principios aritméticos básicos. Examinamos minuciosamente el rendimiento de nuestro modelo, ofreciendo una evaluación exhaustiva de la efectividad de nuestros pasos de descomposición propuestos. Además, Goat-7B puede entrenarse fácilmente usando LoRA en una GPU con 24GB de VRAM, facilitando la reproducibilidad para otros investigadores. Publicamos nuestro modelo, conjunto de datos y el script de Python para la generación del conjunto de datos.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.