Evaluación de la Utilidad de la Muestra para la Selección de Datos mediante la Imitación de los Pesos del Modelo
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Autores: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Resumen
Los modelos base se basan en conjuntos de datos obtenidos a gran escala a través de la web, que frecuentemente contienen datos ruidosos, sesgos y contenido irrelevante. Las técnicas existentes de selección de datos suelen utilizar heurísticas humanas, conjuntos de datos de evaluación secundarios o modelos de puntuación especializados, y pueden pasar por alto la utilidad de las muestras en el proceso de entrenamiento. En cambio, proponemos un nuevo enfoque, el Puntaje Mimic, una métrica de calidad de datos que utiliza un modelo de referencia preentrenado como guía para evaluar la utilidad de las muestras de datos para entrenar un nuevo modelo. Se basa en la alineación entre el gradiente de los parámetros del nuevo modelo y el vector que apunta hacia el modelo de referencia en el espacio de pesos. Las muestras que no se alinean con esta dirección se consideran de bajo valor y pueden ser filtradas. Motivados por el puntaje Mimic, desarrollamos Grad-Mimic, un marco de selección de datos que identifica y prioriza muestras útiles, automatizando el proceso de selección para crear filtros efectivos. Empíricamente, el uso de los puntajes Mimic para guiar el entrenamiento del modelo resulta en ganancias de rendimiento consistentes en seis conjuntos de datos de imágenes y mejora el rendimiento de los modelos CLIP. Además, los puntajes Mimic y sus filtros asociados mejoran los métodos de filtrado existentes y ofrecen una estimación precisa de la calidad del conjunto de datos.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary