ChatPaper.aiChatPaper

LLM2LLM: Potencializando LLMs com Aprimoramento Iterativo de Dados Inovador

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

March 22, 2024
Autores: Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
cs.AI

Resumo

Modelos de linguagem grandes pré-treinados (LLMs) atualmente representam o estado da arte para resolver a grande maioria das tarefas de processamento de linguagem natural. Embora muitas aplicações do mundo real ainda exijam ajuste fino para atingir níveis satisfatórios de desempenho, muitas delas operam em regimes de baixo volume de dados, tornando o ajuste fino desafiador. Para abordar isso, propomos o LLM2LLM, uma estratégia de aumento de dados direcionada e iterativa que utiliza um LLM professor para aprimorar um pequeno conjunto de dados inicial, aumentando dados adicionais que podem ser usados para ajuste fino em uma tarefa específica. O LLM2LLM (1) ajusta um LLM estudante de base nos dados iniciais, (2) avalia e extrai pontos de dados que o modelo classifica incorretamente, e (3) usa um LLM professor para gerar dados sintéticos com base nesses pontos incorretos, que são então reintegrados aos dados de treinamento. Essa abordagem amplifica o sinal dos pontos de dados previstos incorretamente pelo LLM durante o treinamento e os reintegra ao conjunto de dados para focar em exemplos mais desafiadores para o LLM. Nossos resultados mostram que o LLM2LLM melhora significativamente o desempenho de LLMs em regimes de baixo volume de dados, superando tanto o ajuste fino tradicional quanto outras abordagens de aumento de dados. O LLM2LLM reduz a dependência da curadoria de dados intensiva em mão de obra e abre caminho para soluções de LLM mais escaláveis e eficientes, permitindo-nos abordar domínios e tarefas com restrições de dados. Alcançamos melhorias de até 24,2% no conjunto de dados GSM8K, 32,6% no CaseHOLD, 32,0% no SNIPS, 52,6% no TREC e 39,8% no SST-2 em relação ao ajuste fino regular no regime de baixo volume de dados, utilizando um modelo estudante LLaMA2-7B.
English
Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.
PDF272February 8, 2026