AlpaGasus: Treinando um Alpaca Melhor com Menos Dados
AlpaGasus: Training A Better Alpaca with Fewer Data
July 17, 2023
Autores: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) obtêm a capacidade de seguir instruções por meio de ajuste fino com instruções (IFT) em dados supervisionados de instrução/resposta. No entanto, conjuntos de dados IFT amplamente utilizados (por exemplo, os 52k dados do Alpaca) contêm, surpreendentemente, muitas instâncias de baixa qualidade com respostas incorretas ou irrelevantes, que são enganosas e prejudiciais ao IFT. Neste artigo, propomos uma estratégia simples e eficaz de seleção de dados que identifica e remove automaticamente dados de baixa qualidade usando um LLM robusto (por exemplo, ChatGPT). Para isso, introduzimos o AlpaGasus, que é ajustado em apenas 9k dados de alta qualidade filtrados dos 52k dados do Alpaca. O AlpaGasus supera significativamente o Alpaca original, conforme avaliado pelo GPT-4 em múltiplos conjuntos de teste, e sua variante de 13B corresponde a mais de 90% do desempenho de seu LLM professor (ou seja, Text-Davinci-003) em tarefas de teste. Ele também oferece um treinamento 5,7 vezes mais rápido, reduzindo o tempo de treinamento para uma variante de 7B de 80 minutos (para o Alpaca) para 14 minutos. Aplicamos IFT pelo mesmo número de épocas que o Alpaca(7B), mas em menos dados, utilizando 4 GPUs NVIDIA A100 (80GB) e seguindo as configurações e hiperparâmetros originais do Alpaca. No geral, o AlpaGasus demonstra um novo paradigma IFT centrado em dados que pode ser aplicado de forma geral a dados de ajuste fino com instruções, resultando em treinamento mais rápido e modelos com melhor capacidade de seguir instruções. Nossa página do projeto está disponível em: https://lichang-chen.github.io/AlpaGasus/.
English
Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches >90%
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4timesNVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters..
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
https://lichang-chen.github.io/AlpaGasus/.