ChatPaper.aiChatPaper

AlpaGasus : Entraîner un meilleur Alpaca avec moins de données

AlpaGasus: Training A Better Alpaca with Fewer Data

July 17, 2023
Auteurs: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI

Résumé

Les grands modèles de langage (LLMs) acquièrent la capacité à suivre des instructions grâce au fine-tuning sur instructions (IFT) à partir de données supervisées instruction/réponse. Cependant, les ensembles de données IFT couramment utilisés (par exemple, les 52k données d'Alpaca) contiennent étonnamment de nombreux exemples de faible qualité avec des réponses incorrectes ou non pertinentes, ce qui est trompeur et préjudiciable à l'IFT. Dans cet article, nous proposons une stratégie simple et efficace de sélection des données qui identifie et supprime automatiquement les données de faible qualité en utilisant un LLM puissant (par exemple, ChatGPT). À cette fin, nous introduisons AlpaGasus, qui est fine-tuné sur seulement 9k données de haute qualité filtrées à partir des 52k données d'Alpaca. AlpaGasus surpasse significativement l'Alpaca original, tel qu'évalué par GPT-4 sur plusieurs ensembles de test, et sa variante 13B atteint plus de 90 % des performances de son LLM enseignant (c'est-à-dire Text-Davinci-003) sur les tâches de test. Il offre également un entraînement 5,7 fois plus rapide, réduisant le temps d'entraînement pour une variante 7B de 80 minutes (pour Alpaca) à 14 minutes. Nous appliquons l'IFT pour le même nombre d'époques qu'Alpaca(7B) mais sur moins de données, en utilisant 4x NVIDIA A100 (80GB) GPU et en suivant les paramètres et hyperparamètres originaux d'Alpaca. Globalement, AlpaGasus démontre un nouveau paradigme IFT centré sur les données qui peut être généralement appliqué aux données de fine-tuning sur instructions, conduisant à un entraînement plus rapide et à de meilleurs modèles de suivi d'instructions. Notre page de projet est disponible à l'adresse suivante : https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and removes low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and its 13B variant matches >90% performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes We apply IFT for the same number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100 (80GB) GPUs and following the original Alpaca setting and hyperparameters.. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: https://lichang-chen.github.io/AlpaGasus/.
PDF230December 15, 2024