Hoe Data-Efficiënte LLM's te Trainen
How to Train Data-Efficient LLMs
February 15, 2024
Auteurs: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Samenvatting
Het trainen van grote taalmmodellen (LLM's) is kostbaar. In dit artikel onderzoeken we data-efficiënte benaderingen voor het vooraf trainen van LLM's, dat wil zeggen technieken die gericht zijn op het optimaliseren van de Pareto-grens van modelkwaliteit en het verbruik van trainingsbronnen/data. We streven ernaar de afwegingen te begrijpen die gepaard gaan met routines voor dataselectie op basis van (i) duur te berekenen schattingen van data-kwaliteit, en (ii) maximalisatie van dekking en diversiteit gebaseerde maatstaven in de kenmerkruimte. Onze eerste techniek, Ask-LLM, maakt gebruik van de zero-shot redeneercapaciteiten van instructie-getrainde LLM's om de kwaliteit van een trainingsvoorbeeld direct te beoordelen. Om dekking te bereiken, stellen we Density sampling voor, dat de dataverdeling modelleert om een diverse steekproef te selecteren. In onze vergelijking van 19 steekproefmethoden, waarbij honderden evaluatietaken en voorafgaande trainingsruns betrokken zijn, concluderen we dat Ask-LLM en Density de beste methoden zijn in hun respectievelijke categorieën. Dekkingssteekproeven kunnen de prestaties van de volledige dataset evenaren, terwijl modellen die getraind zijn op Ask-LLM-data consistent beter presteren dan training met volledige data – zelfs wanneer we 90% van de oorspronkelijke dataset verwerpen, terwijl ze tot 70% sneller convergeren.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.