Goat: Тонко настроенная LLaMA превосходит GPT-4 в арифметических задачах
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
May 23, 2023
Авторы: Tiedong Liu, Bryan Kian Hsiang Low
cs.AI
Аннотация
Мы представляем Goat, тонко настроенную модель LLaMA, которая значительно превосходит GPT-4 в решении различных арифметических задач. Обучившись на синтетически сгенерированном наборе данных, Goat демонстрирует наилучшие результаты в арифметической подзадаче BIG-bench. В частности, модель Goat-7B в режиме zero-shot соответствует или даже превосходит точность, достигнутую моделью PaLM-540B в режиме few-shot. Удивительно, но Goat достигает почти идеальной точности в сложении и вычитании больших чисел только за счет контролируемого тонкого обучения, что было практически невозможно для предыдущих предобученных языковых моделей, таких как Bloom, OPT, GPT-NeoX и других. Мы связываем выдающуюся производительность Goat с последовательной токенизацией чисел в LLaMA. Для решения более сложных задач, таких как умножение и деление больших чисел, мы предлагаем подход, который классифицирует задачи по их обучаемости, а затем разбивает необучаемые задачи, такие как многозначное умножение и деление, на серию обучаемых задач, используя базовые арифметические принципы. Мы тщательно исследуем производительность нашей модели, предоставляя всестороннюю оценку эффективности предложенных шагов декомпозиции. Кроме того, Goat-7B может быть легко обучена с использованием LoRA на GPU с 24 ГБ видеопамяти, что упрощает воспроизводимость для других исследователей. Мы публикуем нашу модель, набор данных и Python-скрипт для генерации данных.
English
We introduce Goat, a fine-tuned LLaMA model that significantly outperforms
GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated
dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic
sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the
accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve
near-perfect accuracy on large-number addition and subtraction through
supervised fine-tuning only, which is almost impossible with previous
pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute
Goat's exceptional performance to LLaMA's consistent tokenization of numbers.
To tackle more challenging tasks like large-number multiplication and division,
we propose an approach that classifies tasks based on their learnability, and
subsequently decomposes unlearnable tasks, such as multi-digit multiplication
and division, into a series of learnable tasks by leveraging basic arithmetic
principles. We thoroughly examine the performance of our model, offering a
comprehensive evaluation of the effectiveness of our proposed decomposition
steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM
GPU, facilitating reproducibility for other researchers. We release our model,
dataset, and the Python script for dataset generation.