Valoración de Datos mediante Redes Neuronales para el Ajuste Eficiente de Instrucciones
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning
February 14, 2025
Autores: Ishika Agarwal, Dilek Hakkani-Tür
cs.AI
Resumen
Las funciones de influencia proporcionan información crucial sobre el entrenamiento de modelos, pero los métodos existentes adolecen de altos costos computacionales y una generalización limitada. En particular, trabajos recientes han propuesto diversas métricas y algoritmos para calcular la influencia de los datos utilizando modelos de lenguaje, los cuales no escalan bien con modelos y conjuntos de datos grandes. Esto se debe a los costosos pases hacia adelante y hacia atrás requeridos para el cálculo, los requisitos sustanciales de memoria para almacenar modelos grandes y la pobre generalización de las estimaciones de influencia a nuevos datos. En este artículo, exploramos el uso de redes neuronales pequeñas —a las que nos referimos como InfluenceNetwork— para estimar los valores de influencia, logrando una reducción de costos de hasta el 99%. Nuestra evaluación demuestra que los valores de influencia pueden estimarse con modelos que son solo el 0.0027% del tamaño de los modelos de lenguaje completos (utilizamos versiones de 7B y 8B). Aplicamos nuestro algoritmo de estimación de valores de influencia (denominado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) a la tarea de selección de subconjuntos para el ajuste fino de instrucciones generales. En nuestro estudio, incluimos cuatro funciones de influencia de última generación y mostramos que no hay compromiso en el rendimiento, a pesar de las grandes aceleraciones, entre NN-CIFT y las funciones de influencia originales. Proporcionamos un análisis detallado de los hiperparámetros de NN-CIFT. El código de nuestro método se puede encontrar aquí: https://github.com/agarwalishika/NN-CIFT.
English
Influence functions provide crucial insights into model training, but
existing methods suffer from large computational costs and limited
generalization. Particularly, recent works have proposed various metrics and
algorithms to calculate the influence of data using language models, which do
not scale well with large models and datasets. This is because of the expensive
forward and backward passes required for computation, substantial memory
requirements to store large models, and poor generalization of influence
estimates to new data. In this paper, we explore the use of small neural
networks -- which we refer to as the InfluenceNetwork -- to estimate influence
values, achieving up to 99% cost reduction. Our evaluation demonstrates that
influence values can be estimated with models just 0.0027% the size of full
language models (we use 7B and 8B versions). We apply our algorithm of
estimating influence values (called NN-CIFT: Neural Networks for effiCient
Instruction Fine-Tuning) to the downstream task of subset selection for general
instruction fine-tuning. In our study, we include four state-of-the-art
influence functions and show no compromise in performance, despite large
speedups, between NN-CIFT and the original influence functions. We provide an
in-depth hyperparameter analyses of NN-CIFT. The code for our method can be
found here: https://github.com/agarwalishika/NN-CIFT.Summary
AI-Generated Summary