Valorização de Dados utilizando Redes Neurais para Ajuste Fino Eficiente de Instruções
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning
February 14, 2025
Autores: Ishika Agarwal, Dilek Hakkani-Tür
cs.AI
Resumo
As funções de influência fornecem insights cruciais sobre o treinamento de modelos, mas os métodos existentes sofrem com altos custos computacionais e generalização limitada. Em particular, trabalhos recentes propuseram várias métricas e algoritmos para calcular a influência dos dados usando modelos de linguagem, que não escalam bem com modelos e conjuntos de dados grandes. Isso ocorre devido às caras passagens para frente e para trás necessárias para o cálculo, aos requisitos substanciais de memória para armazenar modelos grandes e à fraca generalização das estimativas de influência para novos dados. Neste artigo, exploramos o uso de pequenas redes neurais — que chamamos de InfluenceNetwork — para estimar valores de influência, alcançando uma redução de custo de até 99%. Nossa avaliação demonstra que os valores de influência podem ser estimados com modelos que têm apenas 0,0027% do tamanho de modelos de linguagem completos (usamos versões de 7B e 8B). Aplicamos nosso algoritmo de estimativa de valores de influência (chamado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) à tarefa subsequente de seleção de subconjuntos para ajuste fino de instruções gerais. Em nosso estudo, incluímos quatro funções de influência state-of-the-art e mostramos que não há comprometimento no desempenho, apesar de grandes ganhos de velocidade, entre o NN-CIFT e as funções de influência originais. Fornecemos uma análise detalhada dos hiperparâmetros do NN-CIFT. O código do nosso método pode ser encontrado aqui: https://github.com/agarwalishika/NN-CIFT.
English
Influence functions provide crucial insights into model training, but
existing methods suffer from large computational costs and limited
generalization. Particularly, recent works have proposed various metrics and
algorithms to calculate the influence of data using language models, which do
not scale well with large models and datasets. This is because of the expensive
forward and backward passes required for computation, substantial memory
requirements to store large models, and poor generalization of influence
estimates to new data. In this paper, we explore the use of small neural
networks -- which we refer to as the InfluenceNetwork -- to estimate influence
values, achieving up to 99% cost reduction. Our evaluation demonstrates that
influence values can be estimated with models just 0.0027% the size of full
language models (we use 7B and 8B versions). We apply our algorithm of
estimating influence values (called NN-CIFT: Neural Networks for effiCient
Instruction Fine-Tuning) to the downstream task of subset selection for general
instruction fine-tuning. In our study, we include four state-of-the-art
influence functions and show no compromise in performance, despite large
speedups, between NN-CIFT and the original influence functions. We provide an
in-depth hyperparameter analyses of NN-CIFT. The code for our method can be
found here: https://github.com/agarwalishika/NN-CIFT.Summary
AI-Generated Summary