AlpaGasus: Entrenando un Alpaca Mejor con Menos Datos
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Autores: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) adquieren la capacidad de seguir instrucciones mediante el ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) sobre datos supervisados de instrucciones/respuestas. Sin embargo, los conjuntos de datos de IFT ampliamente utilizados (por ejemplo, los 52k datos de Alpaca) contienen, sorprendentemente, muchas instancias de baja calidad con respuestas incorrectas o irrelevantes, lo cual es engañoso y perjudicial para el IFT. En este artículo, proponemos una estrategia simple y efectiva de selección de datos que identifica y elimina automáticamente los datos de baja calidad utilizando un LLM potente (por ejemplo, ChatGPT). Para ello, presentamos AlpaGasus, que se ajusta finamente utilizando solo 9k datos de alta calidad filtrados de los 52k datos de Alpaca. AlpaGasus supera significativamente al Alpaca original, según la evaluación realizada por GPT-4 en múltiples conjuntos de prueba, y su variante de 13B coincide con más del 90% del rendimiento de su LLM maestro (es decir, Text-Davinci-003) en tareas de prueba. También ofrece un entrenamiento 5.7 veces más rápido, reduciendo el tiempo de entrenamiento para una variante de 7B de 80 minutos (para Alpaca) a 14 minutos. Aplicamos IFT durante el mismo número de épocas que Alpaca (7B) pero con menos datos, utilizando 4 GPUs NVIDIA A100 (80GB) y siguiendo la configuración y los hiperparámetros originales de Alpaca. En general, AlpaGasus demuestra un nuevo paradigma de IFT centrado en los datos que puede aplicarse de manera general a los datos de ajuste fino basado en instrucciones, lo que conduce a un entrenamiento más rápido y a modelos que siguen mejor las instrucciones. Nuestra página del proyecto está disponible en: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.