Wie man dateneffiziente LLMs trainiert
How to Train Data-Efficient LLMs
February 15, 2024
Autoren: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Zusammenfassung
Das Training großer Sprachmodelle (LLMs) ist kostspielig. In diesem Artikel untersuchen wir dateneffiziente Ansätze für das Pre-Training von LLMs, d.h. Techniken, die darauf abzielen, die Pareto-Frontier der Modellqualität und des Ressourcen-/Datenverbrauchs während des Trainings zu optimieren. Wir möchten die Kompromisse verstehen, die mit Datenauswahlverfahren verbunden sind, die auf (i) teuer zu berechnenden Schätzungen der Datenqualität und (ii) der Maximierung von Abdeckungs- und Diversitätsmaßen im Merkmalsraum basieren. Unsere erste Technik, Ask-LLM, nutzt die Zero-Shot-Fähigkeiten instruktionsoptimierter LLMs, um die Qualität eines Trainingsbeispiels direkt zu bewerten. Um die Abdeckung zu verbessern, schlagen wir Density Sampling vor, das die Datenverteilung modelliert, um eine diverse Stichprobe auszuwählen. In unserem Vergleich von 19 Samplern, der Hunderte von Evaluierungsaufgaben und Pre-Training-Läufe umfasst, stellen wir fest, dass Ask-LLM und Density die besten Methoden in ihren jeweiligen Kategorien sind. Abdeckungsbasiertes Sampling kann die Leistung der vollständigen Daten wiederherstellen, während Modelle, die auf Ask-LLM-Daten trainiert werden, durchweg das Training mit den vollständigen Daten übertreffen – selbst wenn wir 90 % des ursprünglichen Datensatzes verwerfen, während sie bis zu 70 % schneller konvergieren.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.Summary
AI-Generated Summary