ChatPaper.aiChatPaper

LLM2LLM : Amélioration des LLM grâce à une nouvelle approche itérative d'enrichissement des données

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

March 22, 2024
Auteurs: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

Résumé

Les grands modèles de langage pré-entraînés (LLM) constituent actuellement l'état de l'art pour résoudre la grande majorité des tâches de traitement du langage naturel. Bien que de nombreuses applications réelles nécessitent encore un ajustement fin pour atteindre des niveaux de performance satisfaisants, beaucoup d'entre elles se trouvent dans un régime de faible quantité de données, rendant l'ajustement fin difficile. Pour remédier à cela, nous proposons LLM2LLM, une stratégie d'augmentation de données ciblée et itérative qui utilise un LLM enseignant pour enrichir un petit ensemble de données initial en générant des données supplémentaires pouvant être utilisées pour l'ajustement fin sur une tâche spécifique. LLM2LLM (1) ajuste finement un LLM étudiant de base sur les données initiales, (2) évalue et extrait les points de données que le modèle classe incorrectement, et (3) utilise un LLM enseignant pour générer des données synthétiques basées sur ces points de données incorrects, qui sont ensuite réintégrés dans les données d'entraînement. Cette approche amplifie le signal des points de données mal prédits par le LLM pendant l'entraînement et les réintègre dans le jeu de données pour se concentrer sur des exemples plus difficiles pour le LLM. Nos résultats montrent que LLM2LLM améliore significativement les performances des LLM dans le régime de faible quantité de données, surpassant à la fois l'ajustement fin traditionnel et d'autres méthodes de référence en augmentation de données. LLM2LLM réduit la dépendance à la curation de données laborieuse et ouvre la voie à des solutions LLM plus évolutives et performantes, nous permettant de nous attaquer à des domaines et tâches contraints en données. Nous obtenons des améliorations allant jusqu'à 24,2 % sur le jeu de données GSM8K, 32,6 % sur CaseHOLD, 32,0 % sur SNIPS, 52,6 % sur TREC et 39,8 % sur SST-2 par rapport à l'ajustement fin régulier dans le régime de faible quantité de données en utilisant un modèle étudiant LLaMA2-7B.
English
Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.

Summary

AI-Generated Summary

PDF282December 15, 2024