Come Addestrare Modelli Linguistici Efficienti dal Punto di Vista dei Dati
How to Train Data-Efficient LLMs
February 15, 2024
Autori: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Abstract
L'addestramento di modelli linguistici di grandi dimensioni (LLM) è costoso. In questo articolo, studiamo approcci efficienti dal punto di vista dei dati per il pre-addestramento degli LLM, ovvero tecniche che mirano a ottimizzare la frontiera di Pareto tra la qualità del modello e il consumo di risorse/dati durante l'addestramento. Cerchiamo di comprendere i compromessi associati alle routine di selezione dei dati basate su (i) stime della qualità dei dati costose da calcolare e (ii) massimizzazione della copertura e misure basate sulla diversità nello spazio delle caratteristiche. La nostra prima tecnica, Ask-LLM, sfrutta le capacità di ragionamento zero-shot di LLM addestrati su istruzioni per valutare direttamente la qualità di un esempio di addestramento. Per puntare alla copertura, proponiamo il campionamento Density, che modella la distribuzione dei dati per selezionare un campione diversificato. Nel nostro confronto di 19 metodi di campionamento, che coinvolge centinaia di task di valutazione e sessioni di pre-addestramento, scopriamo che Ask-LLM e Density sono i migliori metodi nelle rispettive categorie. Il campionamento basato sulla copertura può recuperare le prestazioni dei dati completi, mentre i modelli addestrati sui dati selezionati da Ask-LLM superano costantemente l'addestramento con tutti i dati, anche quando rifiutiamo il 90% del dataset originale, convergendo fino al 70% più velocemente.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.