Hoe Data-Efficiënte LLM's te Trainen

Samenvatting

Het trainen van grote taalmmodellen (LLM's) is kostbaar. In dit artikel onderzoeken we data-efficiënte benaderingen voor het vooraf trainen van LLM's, dat wil zeggen technieken die gericht zijn op het optimaliseren van de Pareto-grens van modelkwaliteit en het verbruik van trainingsbronnen/data. We streven ernaar de afwegingen te begrijpen die gepaard gaan met routines voor dataselectie op basis van (i) duur te berekenen schattingen van data-kwaliteit, en (ii) maximalisatie van dekking en diversiteit gebaseerde maatstaven in de kenmerkruimte. Onze eerste techniek, Ask-LLM, maakt gebruik van de zero-shot redeneercapaciteiten van instructie-getrainde LLM's om de kwaliteit van een trainingsvoorbeeld direct te beoordelen. Om dekking te bereiken, stellen we Density sampling voor, dat de dataverdeling modelleert om een diverse steekproef te selecteren. In onze vergelijking van 19 steekproefmethoden, waarbij honderden evaluatietaken en voorafgaande trainingsruns betrokken zijn, concluderen we dat Ask-LLM en Density de beste methoden zijn in hun respectievelijke categorieën. Dekkingssteekproeven kunnen de prestaties van de volledige dataset evenaren, terwijl modellen die getraind zijn op Ask-LLM-data consistent beter presteren dan training met volledige data – zelfs wanneer we 90% van de oorspronkelijke dataset verwerpen, terwijl ze tot 70% sneller convergeren.

English

The training of large language models (LLMs) is expensive. In this paper, we study data-efficient approaches for pre-training LLMs, i.e., techniques that aim to optimize the Pareto frontier of model quality and training resource/data consumption. We seek to understand the tradeoffs associated with data selection routines based on (i) expensive-to-compute data-quality estimates, and (ii) maximization of coverage and diversity-based measures in the feature space. Our first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of instruction-tuned LLMs to directly assess the quality of a training example. To target coverage, we propose Density sampling, which models the data distribution to select a diverse sample. In our comparison of 19 samplers, involving hundreds of evaluation tasks and pre-training runs, we find that Ask-LLM and Density are the best methods in their respective categories. Coverage sampling can recover the performance of the full data, while models trained on Ask-LLM data consistently outperform full-data training -- even when we reject 90% of the original dataset, while converging up to 70% faster.

Hoe Data-Efficiënte LLM's te Trainen

How to Train Data-Efficient LLMs

Samenvatting

Support