LLM2LLM: Potenziamento dei LLM attraverso un innovativo miglioramento iterativo dei dati

Abstract

I modelli linguistici pre-addestrati di grandi dimensioni (LLM) rappresentano attualmente lo stato dell'arte per risolvere la maggior parte dei compiti di elaborazione del linguaggio naturale. Sebbene molte applicazioni del mondo reale richiedano ancora un fine-tuning per raggiungere livelli di prestazione soddisfacenti, molte di esse operano in contesti con dati limitati, rendendo il fine-tuning una sfida. Per affrontare questo problema, proponiamo LLM2LLM, una strategia di aumento dei dati mirata e iterativa che utilizza un LLM insegnante per arricchire un piccolo dataset iniziale, generando dati aggiuntivi che possono essere utilizzati per il fine-tuning su un compito specifico. LLM2LLM (1) esegue il fine-tuning di un LLM studente di base sui dati iniziali, (2) valuta ed estrae i punti dati che il modello classifica erroneamente, e (3) utilizza un LLM insegnante per generare dati sintetici basati su questi punti dati errati, che vengono poi reinseriti nel dataset di addestramento. Questo approccio amplifica il segnale proveniente dai punti dati predetti in modo errato dall'LLM durante l'addestramento e li reintegra nel dataset per concentrarsi su esempi più complessi per l'LLM. I nostri risultati dimostrano che LLM2LLM migliora significativamente le prestazioni degli LLM in contesti con dati limitati, superando sia il fine-tuning tradizionale che altre tecniche di aumento dei dati. LLM2LLM riduce la dipendenza dalla curatela dei dati, spesso laboriosa, e apre la strada a soluzioni LLM più scalabili e performanti, consentendoci di affrontare domini e compiti con vincoli di dati. Raggiungiamo miglioramenti fino al 24,2% sul dataset GSM8K, 32,6% su CaseHOLD, 32,0% su SNIPS, 52,6% su TREC e 39,8% su SST-2 rispetto al fine-tuning regolare in contesti con dati limitati, utilizzando un modello studente LLaMA2-7B.

English

Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.

LLM2LLM: Potenziamento dei LLM attraverso un innovativo miglioramento iterativo dei dati

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

Abstract

Support