Goat: Тонко настроенная LLaMA превосходит GPT-4 в арифметических задачах

Аннотация

Мы представляем Goat, тонко настроенную модель LLaMA, которая значительно превосходит GPT-4 в решении различных арифметических задач. Обучившись на синтетически сгенерированном наборе данных, Goat демонстрирует наилучшие результаты в арифметической подзадаче BIG-bench. В частности, модель Goat-7B в режиме zero-shot соответствует или даже превосходит точность, достигнутую моделью PaLM-540B в режиме few-shot. Удивительно, но Goat достигает почти идеальной точности в сложении и вычитании больших чисел только за счет контролируемого тонкого обучения, что было практически невозможно для предыдущих предобученных языковых моделей, таких как Bloom, OPT, GPT-NeoX и других. Мы связываем выдающуюся производительность Goat с последовательной токенизацией чисел в LLaMA. Для решения более сложных задач, таких как умножение и деление больших чисел, мы предлагаем подход, который классифицирует задачи по их обучаемости, а затем разбивает необучаемые задачи, такие как многозначное умножение и деление, на серию обучаемых задач, используя базовые арифметические принципы. Мы тщательно исследуем производительность нашей модели, предоставляя всестороннюю оценку эффективности предложенных шагов декомпозиции. Кроме того, Goat-7B может быть легко обучена с использованием LoRA на GPU с 24 ГБ видеопамяти, что упрощает воспроизводимость для других исследователей. Мы публикуем нашу модель, набор данных и Python-скрипт для генерации данных.

English

We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat's exceptional performance to LLaMA's consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.

Goat: Тонко настроенная LLaMA превосходит GPT-4 в арифметических задачах

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

Аннотация

Support