ChatPaper.aiChatPaper

Valorização de Dados utilizando Redes Neurais para Ajuste Fino Eficiente de Instruções

Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

February 14, 2025
Autores: Ishika Agarwal, Dilek Hakkani-Tür
cs.AI

Resumo

As funções de influência fornecem insights cruciais sobre o treinamento de modelos, mas os métodos existentes sofrem com altos custos computacionais e generalização limitada. Em particular, trabalhos recentes propuseram várias métricas e algoritmos para calcular a influência dos dados usando modelos de linguagem, que não escalam bem com modelos e conjuntos de dados grandes. Isso ocorre devido às caras passagens para frente e para trás necessárias para o cálculo, aos requisitos substanciais de memória para armazenar modelos grandes e à fraca generalização das estimativas de influência para novos dados. Neste artigo, exploramos o uso de pequenas redes neurais — que chamamos de InfluenceNetwork — para estimar valores de influência, alcançando uma redução de custo de até 99%. Nossa avaliação demonstra que os valores de influência podem ser estimados com modelos que têm apenas 0,0027% do tamanho de modelos de linguagem completos (usamos versões de 7B e 8B). Aplicamos nosso algoritmo de estimativa de valores de influência (chamado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) à tarefa subsequente de seleção de subconjuntos para ajuste fino de instruções gerais. Em nosso estudo, incluímos quatro funções de influência state-of-the-art e mostramos que não há comprometimento no desempenho, apesar de grandes ganhos de velocidade, entre o NN-CIFT e as funções de influência originais. Fornecemos uma análise detalhada dos hiperparâmetros do NN-CIFT. O código do nosso método pode ser encontrado aqui: https://github.com/agarwalishika/NN-CIFT.
English
Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks -- which we refer to as the InfluenceNetwork -- to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

Summary

AI-Generated Summary

PDF12February 18, 2025