Goat: LLaMA Ajustado Supera o GPT-4 em Tarefas Aritméticas
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Autores: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Resumo
Apresentamos o Goat, um modelo LLaMA ajustado que supera significativamente o GPT-4 em uma variedade de tarefas aritméticas. Ajustado em um conjunto de dados gerado sinteticamente, o Goat alcança desempenho de ponta na sub-tarefa aritmética do BIG-bench. Em particular, o Goat-7B zero-shot iguala ou até supera a precisão alcançada pelo PaLM-540B few-shot. Surpreendentemente, o Goat pode atingir precisão quase perfeita em adição e subtração de números grandes apenas com ajuste fino supervisionado, o que é quase impossível com modelos de linguagem pré-treinados anteriores, como Bloom, OPT, GPT-NeoX, etc. Atribuímos o desempenho excepcional do Goat à tokenização consistente de números do LLaMA. Para enfrentar tarefas mais desafiadoras, como multiplicação e divisão de números grandes, propomos uma abordagem que classifica as tarefas com base em sua capacidade de aprendizado e, subsequentemente, decompõe tarefas não aprendíveis, como multiplicação e divisão de múltiplos dígitos, em uma série de tarefas aprendíveis, aproveitando princípios aritméticos básicos. Examinamos minuciosamente o desempenho do nosso modelo, oferecendo uma avaliação abrangente da eficácia das etapas de decomposição propostas. Além disso, o Goat-7B pode ser facilmente treinado usando LoRA em uma GPU com 24GB de VRAM, facilitando a reprodutibilidade para outros pesquisadores. Disponibilizamos nosso modelo, conjunto de dados e o script Python para geração de dados.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.