LLM2LLM: Verbesserung von LLMs durch neuartige iterative Datenverbesserung
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
March 22, 2024
Autoren: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI
Zusammenfassung
Vortrainierte große Sprachmodelle (LLMs) sind derzeit der Stand der Technik für die Lösung der überwiegenden Mehrheit der Aufgaben im Bereich der natürlichen Sprachverarbeitung. Während viele Anwendungen in der realen Welt immer noch Feinabstimmung erfordern, um zufriedenstellende Leistungspegel zu erreichen, befinden sich viele von ihnen im Niedrigdatenbereich, was die Feinabstimmung herausfordernd macht. Um dies anzugehen, schlagen wir LLM2LLM vor, eine gezielte und iterative Datenanreicherungsstrategie, die ein Lehrer-LLM verwendet, um einen kleinen Ausgangsdatensatz durch Anreicherung zusätzlicher Daten zu verbessern, die für die Feinabstimmung auf eine spezifische Aufgabe verwendet werden können. LLM2LLM (1) feinabstimmt ein Basisstudenten-LLM auf den anfänglichen Ausgangsdaten, (2) bewertet und extrahiert Datenpunkte, die das Modell falsch erhält, und (3) verwendet ein Lehrer-LLM, um synthetische Daten basierend auf diesen inkorrekten Datenpunkten zu generieren, die dann wieder in die Trainingsdaten aufgenommen werden. Dieser Ansatz verstärkt das Signal von während des Trainings vom LLM falsch vorhergesagten Datenpunkten und integriert sie wieder in den Datensatz, um sich auf anspruchsvollere Beispiele für das LLM zu konzentrieren. Unsere Ergebnisse zeigen, dass LLM2LLM die Leistung von LLMs im Niedrigdatenbereich signifikant verbessert, traditionelle Feinabstimmung und andere Datenanreicherungsgrundlinien übertrifft. LLM2LLM reduziert die Abhängigkeit von arbeitsintensiver Datenaufbereitung und ebnet den Weg für skalierbarere und leistungsstärkere LLM-Lösungen, die es uns ermöglichen, datenbeschränkte Bereiche und Aufgaben anzugehen. Wir erzielen Verbesserungen von bis zu 24,2 % auf dem GSM8K-Datensatz, 32,6 % auf CaseHOLD, 32,0 % auf SNIPS, 52,6 % auf TREC und 39,8 % auf SST-2 gegenüber der regulären Feinabstimmung im Niedrigdatenbereich unter Verwendung eines LLaMA2-7B-Studentenmodells.
English
Pretrained large language models (LLMs) are currently state-of-the-art for
solving the vast majority of natural language processing tasks. While many
real-world applications still require fine-tuning to reach satisfactory levels
of performance, many of them are in the low-data regime, making fine-tuning
challenging. To address this, we propose LLM2LLM, a targeted and iterative data
augmentation strategy that uses a teacher LLM to enhance a small seed dataset
by augmenting additional data that can be used for fine-tuning on a specific
task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data,
(2) evaluates and extracts data points that the model gets wrong, and (3) uses
a teacher LLM to generate synthetic data based on these incorrect data points,
which are then added back into the training data. This approach amplifies the
signal from incorrectly predicted data points by the LLM during training and
reintegrates them into the dataset to focus on more challenging examples for
the LLM. Our results show that LLM2LLM significantly enhances the performance
of LLMs in the low-data regime, outperforming both traditional fine-tuning and
other data augmentation baselines. LLM2LLM reduces the dependence on
labor-intensive data curation and paves the way for more scalable and
performant LLM solutions, allowing us to tackle data-constrained domains and
tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on
CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular
fine-tuning in the low-data regime using a LLaMA2-7B student model.Summary
AI-Generated Summary