ChatPaper.aiChatPaper

Valoración de Datos mediante Redes Neuronales para el Ajuste Eficiente de Instrucciones

Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

February 14, 2025
Autores: Ishika Agarwal, Dilek Hakkani-Tür
cs.AI

Resumen

Las funciones de influencia proporcionan información crucial sobre el entrenamiento de modelos, pero los métodos existentes adolecen de altos costos computacionales y una generalización limitada. En particular, trabajos recientes han propuesto diversas métricas y algoritmos para calcular la influencia de los datos utilizando modelos de lenguaje, los cuales no escalan bien con modelos y conjuntos de datos grandes. Esto se debe a los costosos pases hacia adelante y hacia atrás requeridos para el cálculo, los requisitos sustanciales de memoria para almacenar modelos grandes y la pobre generalización de las estimaciones de influencia a nuevos datos. En este artículo, exploramos el uso de redes neuronales pequeñas —a las que nos referimos como InfluenceNetwork— para estimar los valores de influencia, logrando una reducción de costos de hasta el 99%. Nuestra evaluación demuestra que los valores de influencia pueden estimarse con modelos que son solo el 0.0027% del tamaño de los modelos de lenguaje completos (utilizamos versiones de 7B y 8B). Aplicamos nuestro algoritmo de estimación de valores de influencia (denominado NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) a la tarea de selección de subconjuntos para el ajuste fino de instrucciones generales. En nuestro estudio, incluimos cuatro funciones de influencia de última generación y mostramos que no hay compromiso en el rendimiento, a pesar de las grandes aceleraciones, entre NN-CIFT y las funciones de influencia originales. Proporcionamos un análisis detallado de los hiperparámetros de NN-CIFT. El código de nuestro método se puede encontrar aquí: https://github.com/agarwalishika/NN-CIFT.
English
Influence functions provide crucial insights into model training, but existing methods suffer from large computational costs and limited generalization. Particularly, recent works have proposed various metrics and algorithms to calculate the influence of data using language models, which do not scale well with large models and datasets. This is because of the expensive forward and backward passes required for computation, substantial memory requirements to store large models, and poor generalization of influence estimates to new data. In this paper, we explore the use of small neural networks -- which we refer to as the InfluenceNetwork -- to estimate influence values, achieving up to 99% cost reduction. Our evaluation demonstrates that influence values can be estimated with models just 0.0027% the size of full language models (we use 7B and 8B versions). We apply our algorithm of estimating influence values (called NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) to the downstream task of subset selection for general instruction fine-tuning. In our study, we include four state-of-the-art influence functions and show no compromise in performance, despite large speedups, between NN-CIFT and the original influence functions. We provide an in-depth hyperparameter analyses of NN-CIFT. The code for our method can be found here: https://github.com/agarwalishika/NN-CIFT.

Summary

AI-Generated Summary

PDF12February 18, 2025