Goat: LLaMA ajustado supera a GPT-4 en tareas aritméticas

Resumen

Presentamos Goat, un modelo LLaMA ajustado finamente que supera significativamente a GPT-4 en una variedad de tareas aritméticas. Ajustado en un conjunto de datos generado sintéticamente, Goat logra un rendimiento de vanguardia en la sub-tarea aritmética de BIG-bench. En particular, Goat-7B en modo zero-shot iguala o incluso supera la precisión alcanzada por PaLM-540B en modo few-shot. Sorprendentemente, Goat puede lograr una precisión casi perfecta en la suma y resta de números grandes mediante ajuste fino supervisado únicamente, algo casi imposible con modelos de lenguaje preentrenados anteriores, como Bloom, OPT, GPT-NeoX, etc. Atribuimos el rendimiento excepcional de Goat a la tokenización consistente de números en LLaMA. Para abordar tareas más desafiantes, como la multiplicación y división de números grandes, proponemos un enfoque que clasifica las tareas según su capacidad de aprendizaje y, posteriormente, descompone tareas no aprendibles, como la multiplicación y división de múltiples dígitos, en una serie de tareas aprendibles aprovechando principios aritméticos básicos. Examinamos minuciosamente el rendimiento de nuestro modelo, ofreciendo una evaluación exhaustiva de la efectividad de nuestros pasos de descomposición propuestos. Además, Goat-7B puede entrenarse fácilmente usando LoRA en una GPU con 24GB de VRAM, facilitando la reproducibilidad para otros investigadores. Publicamos nuestro modelo, conjunto de datos y el script de Python para la generación del conjunto de datos.

English

We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat's exceptional performance to LLaMA's consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.

Goat: LLaMA ajustado supera a GPT-4 en tareas aritméticas

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

Resumen

Support