AlpaGasus: Обучение лучшей модели Alpaca с меньшим объемом данных
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Авторы: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Аннотация
Крупные языковые модели (LLM) приобретают способность следовать инструкциям благодаря тонкой настройке на инструкции (instruction-finetuning, IFT) с использованием размеченных данных, содержащих инструкции и ответы. Однако широко используемые наборы данных для IFT (например, 52k данных Alpaca) удивительным образом содержат множество низкокачественных примеров с некорректными или нерелевантными ответами, которые вводят в заблуждение и вредят процессу IFT. В данной статье мы предлагаем простую и эффективную стратегию отбора данных, которая автоматически идентифицирует и удаляет низкокачественные данные с использованием мощной LLM (например, ChatGPT). Для этого мы представляем AlpaGasus, модель, которая была тонко настроена на основе всего 9k высококачественных данных, отфильтрованных из 52k данных Alpaca. AlpaGasus значительно превосходит оригинальную Alpaca, что подтверждается оценкой GPT-4 на нескольких тестовых наборах, а её 13B вариант достигает более 90% производительности своей учительской LLM (т.е. Text-Davinci-003) на тестовых задачах. Кроме того, она обеспечивает ускорение обучения в 5,7 раз, сокращая время обучения для 7B варианта с 80 минут (для Alpaca) до 14 минут. Мы применяем IFT на том же количестве эпох, что и для Alpaca (7B), но на меньшем объёме данных, используя 4 GPU NVIDIA A100 (80 ГБ) и следуя оригинальным настройкам и гиперпараметрам Alpaca. В целом, AlpaGasus демонстрирует новый подход к IFT, ориентированный на данные, который может быть широко применён для настройки на инструкции, что приводит к более быстрому обучению и созданию моделей, лучше следующих инструкциям. Наша страница проекта доступна по адресу: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.