AlpaGasus: Addestrare un Alpaca Migliore con Meno Dati
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Autori: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Abstract
I grandi modelli linguistici (LLM) acquisiscono la capacità di seguire istruzioni attraverso il fine-tuning su istruzioni (IFT) utilizzando dati supervisionati di istruzioni/risposte. Tuttavia, i dataset IFT ampiamente utilizzati (ad esempio, i 52k dati di Alpaca) contengono sorprendentemente molte istanze di bassa qualità con risposte errate o irrilevanti, che sono fuorvianti e dannose per l'IFT. In questo articolo, proponiamo una strategia semplice ed efficace per la selezione dei dati che identifica e rimuove automaticamente i dati di bassa qualità utilizzando un LLM potente (ad esempio, ChatGPT). A tal fine, introduciamo AlpaGasus, che viene sottoposto a fine-tuning su soli 9k dati di alta qualità filtrati dai 52k dati di Alpaca. AlpaGasus supera significativamente l'originale Alpaca, come valutato da GPT-4 su più set di test, e la sua variante da 13B raggiunge oltre il 90% delle prestazioni del suo LLM insegnante (cioè Text-Davinci-003) sui task di test. Offre anche un addestramento 5,7 volte più veloce, riducendo il tempo di addestramento per una variante da 7B da 80 minuti (per Alpaca) a 14 minuti. Applichiamo l'IFT per lo stesso numero di epoche di Alpaca(7B) ma su meno dati, utilizzando 4 GPU NVIDIA A100 (80GB) e seguendo le impostazioni e gli iperparametri originali di Alpaca. Nel complesso, AlpaGasus dimostra un nuovo paradigma IFT incentrato sui dati che può essere applicato in generale ai dati di fine-tuning su istruzioni, portando a un addestramento più veloce e a modelli migliori nel seguire le istruzioni. La nostra pagina del progetto è disponibile all'indirizzo: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.