Comment entraîner des LLM efficaces en termes de données
How to Train Data-Efficient LLMs
February 15, 2024
Auteurs: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Résumé
L'entraînement des grands modèles de langage (LLMs) est coûteux. Dans cet article, nous étudions des approches efficaces en termes de données pour le pré-entraînement des LLMs, c'est-à-dire des techniques visant à optimiser la frontière de Pareto entre la qualité du modèle et la consommation de ressources/données d'entraînement. Nous cherchons à comprendre les compromis associés aux routines de sélection de données basées sur (i) des estimations coûteuses à calculer de la qualité des données, et (ii) la maximisation de mesures de couverture et de diversité dans l'espace des caractéristiques. Notre première technique, Ask-LLM, exploite les capacités de raisonnement en zero-shot des LLMs ajustés par instruction pour évaluer directement la qualité d'un exemple d'entraînement. Pour cibler la couverture, nous proposons l'échantillonnage par densité (Density), qui modélise la distribution des données pour sélectionner un échantillon diversifié. Dans notre comparaison de 19 méthodes d'échantillonnage, impliquant des centaines de tâches d'évaluation et de runs de pré-entraînement, nous constatons qu'Ask-LLM et Density sont les meilleures méthodes dans leurs catégories respectives. L'échantillonnage par couverture peut retrouver les performances des données complètes, tandis que les modèles entraînés sur les données d'Ask-LLM surpassent systématiquement l'entraînement sur l'ensemble des données — même lorsque nous rejetons 90 % du jeu de données original, tout en convergeant jusqu'à 70 % plus rapidement.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.Summary
AI-Generated Summary