AlpaGasus: Besseres Alpaca-Training mit weniger Daten
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Autoren: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) erlangen die Fähigkeit, Anweisungen zu befolgen, durch Instruction-Finetuning (IFT) auf überwachten Anweisungs-/Antwortdaten. Allerdings enthalten weit verbreitete IFT-Datensätze (z. B. die 52k Daten von Alpaca) überraschenderweise viele Instanzen von niedriger Qualität mit falschen oder irrelevanten Antworten, die irreführend und schädlich für das IFT sind. In diesem Artikel schlagen wir eine einfache und effektive Datenauswahlstrategie vor, die automatisch Daten von niedriger Qualität mithilfe eines starken LLMs (z. B. ChatGPT) identifiziert und entfernt. Zu diesem Zweck führen wir AlpaGasus ein, das nur auf 9k hochwertigen Daten, die aus den 52k Alpaca-Daten gefiltert wurden, finetuned wird. AlpaGasus übertrifft das ursprüngliche Alpaca deutlich, wie von GPT-4 auf mehreren Testdatensätzen bewertet, und seine 13B-Variante erreicht >90 % der Leistung seines Lehrer-LLMs (d. h. Text-Davinci-003) bei Testaufgaben. Es bietet auch ein 5,7-mal schnelleres Training, wodurch die Trainingszeit für eine 7B-Variante von 80 Minuten (für Alpaca) auf 14 Minuten reduziert wird. Wir wenden IFT für die gleiche Anzahl von Epochen wie Alpaca(7B) an, jedoch auf weniger Daten, unter Verwendung von 4x NVIDIA A100 (80GB) GPUs und unter Beibehaltung der ursprünglichen Alpaca-Einstellungen und Hyperparameter. Insgesamt demonstriert AlpaGasus ein neuartiges datenzentriertes IFT-Paradigma, das allgemein auf Instruction-Tuning-Daten angewendet werden kann, was zu schnellerem Training und besseren Anweisungs-befolgenden Modellen führt. Unsere Projektseite ist verfügbar unter: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.