Comment entraîner des LLM efficaces en termes de données

papers.abstract

L'entraînement des grands modèles de langage (LLMs) est coûteux. Dans cet article, nous étudions des approches efficaces en termes de données pour le pré-entraînement des LLMs, c'est-à-dire des techniques visant à optimiser la frontière de Pareto entre la qualité du modèle et la consommation de ressources/données d'entraînement. Nous cherchons à comprendre les compromis associés aux routines de sélection de données basées sur (i) des estimations coûteuses à calculer de la qualité des données, et (ii) la maximisation de mesures de couverture et de diversité dans l'espace des caractéristiques. Notre première technique, Ask-LLM, exploite les capacités de raisonnement en zero-shot des LLMs ajustés par instruction pour évaluer directement la qualité d'un exemple d'entraînement. Pour cibler la couverture, nous proposons l'échantillonnage par densité (Density), qui modélise la distribution des données pour sélectionner un échantillon diversifié. Dans notre comparaison de 19 méthodes d'échantillonnage, impliquant des centaines de tâches d'évaluation et de runs de pré-entraînement, nous constatons qu'Ask-LLM et Density sont les meilleures méthodes dans leurs catégories respectives. L'échantillonnage par couverture peut retrouver les performances des données complètes, tandis que les modèles entraînés sur les données d'Ask-LLM surpassent systématiquement l'entraînement sur l'ensemble des données — même lorsque nous rejetons 90 % du jeu de données original, tout en convergeant jusqu'à 70 % plus rapidement.

English

The training of large language models (LLMs) is expensive. In this paper, we study data-efficient approaches for pre-training LLMs, i.e., techniques that aim to optimize the Pareto frontier of model quality and training resource/data consumption. We seek to understand the tradeoffs associated with data selection routines based on (i) expensive-to-compute data-quality estimates, and (ii) maximization of coverage and diversity-based measures in the feature space. Our first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of instruction-tuned LLMs to directly assess the quality of a training example. To target coverage, we propose Density sampling, which models the data distribution to select a diverse sample. In our comparison of 19 samplers, involving hundreds of evaluation tasks and pre-training runs, we find that Ask-LLM and Density are the best methods in their respective categories. Coverage sampling can recover the performance of the full data, while models trained on Ask-LLM data consistently outperform full-data training -- even when we reject 90% of the original dataset, while converging up to 70% faster.

Comment entraîner des LLM efficaces en termes de données

How to Train Data-Efficient LLMs

papers.abstract

Support