AlpaGasus: Een Betere Alpaca Trainen met Minder Data
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Auteurs: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Samenvatting
Grote taalmodellen (LLMs) verwerven de mogelijkheid om instructies op te volgen door middel van instructie-finetuning (IFT) op begeleide instructie/antwoordgegevens. Echter, veelgebruikte IFT-datasets (bijv. Alpaca's 52k gegevens) bevatten verrassend veel gevallen van lage kwaliteit met incorrecte of irrelevante antwoorden, wat misleidend en schadelijk is voor IFT. In dit artikel stellen we een eenvoudige en effectieve dataselectiestrategie voor die automatisch gegevens van lage kwaliteit identificeert en verwijdert met behulp van een sterk LLM (bijv. ChatGPT). Hiertoe introduceren we AlpaGasus, dat wordt gefinetuned op slechts 9k hoogwaardige gegevens die zijn gefilterd uit de 52k Alpaca-gegevens. AlpaGasus presteert aanzienlijk beter dan de originele Alpaca, zoals beoordeeld door GPT-4 op meerdere test sets, en zijn 13B-variant komt overeen met >90% van de prestaties van zijn lerende LLM (d.w.z. Text-Davinci-003) op testtaken. Het biedt ook 5,7x snellere training, waardoor de trainingstijd voor een 7B-variant wordt teruggebracht van 80 minuten (voor Alpaca) naar 14 minuten. We passen IFT toe voor hetzelfde aantal epochs als Alpaca(7B) maar op minder gegevens, met behulp van 4x NVIDIA A100 (80GB) GPU's en volgen de originele Alpaca-instellingen en hyperparameters. Over het algemeen demonstreert AlpaGasus een nieuw data-centrisch IFT-paradigma dat algemeen kan worden toegepast op instructie-tuninggegevens, wat leidt tot snellere training en betere instructie-volgende modellen. Onze projectpagina is beschikbaar op: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.