ChatPaper.aiChatPaper

LLM2LLM: Verbetering van LLM's met Nieuwe Iteratieve Dataverrijking

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

March 22, 2024
Auteurs: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

Samenvatting

Voorgetrainde grote taalmodellen (LLM's) zijn momenteel state-of-the-art voor het oplossen van de overgrote meerderheid van natuurlijke-taaltaken. Hoewel veel real-world toepassingen nog steeds fine-tuning vereisen om bevredigende prestatieniveaus te bereiken, bevinden veel van deze toepassingen zich in het low-data regime, wat fine-tuning uitdagend maakt. Om dit aan te pakken, stellen we LLM2LLM voor, een gerichte en iteratieve data-augmentatiestrategie die een teacher LLM gebruikt om een kleine seed dataset te verrijken door aanvullende data te genereren die gebruikt kan worden voor fine-tuning op een specifieke taak. LLM2LLM (1) fine-tunt een baseline student LLM op de initiële seed data, (2) evalueert en extraheert datapunten die het model fout heeft, en (3) gebruikt een teacher LLM om synthetische data te genereren op basis van deze incorrecte datapunten, die vervolgens weer worden toegevoegd aan de trainingsdata. Deze aanpak versterkt het signaal van incorrect voorspelde datapunten door het LLM tijdens de training en integreert ze opnieuw in de dataset om te focussen op uitdagendere voorbeelden voor het LLM. Onze resultaten laten zien dat LLM2LLM de prestaties van LLM's in het low-data regime aanzienlijk verbetert, en zowel traditionele fine-tuning als andere data-augmentatiebaselines overtreft. LLM2LLM vermindert de afhankelijkheid van arbeidsintensieve datacuratie en baant de weg voor meer schaalbare en performante LLM-oplossingen, waardoor we data-gedomineerde domeinen en taken kunnen aanpakken. We behalen verbeteringen tot 24,2% op de GSM8K dataset, 32,6% op CaseHOLD, 32,0% op SNIPS, 52,6% op TREC en 39,8% op SST-2 ten opzichte van reguliere fine-tuning in het low-data regime met behulp van een LLaMA2-7B studentmodel.
English
Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.
PDF272February 8, 2026