Évaluation de l'utilité de l'échantillon pour la sélection des données en imitant les poids du modèle
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Auteurs: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Résumé
Les modèles fondamentaux reposent sur des ensembles de données collectés à grande échelle sur le web, qui contiennent fréquemment des données bruitées, des biais et du contenu non pertinent. Les techniques existantes de sélection de données utilisent généralement des heuristiques humaines, des ensembles de données d'évaluation en aval, ou des modèles de notation spécialisés, et peuvent négliger l'utilité des échantillons dans le processus d'entraînement. Au lieu de cela, nous proposons une nouvelle approche, le Score Mimic, une métrique de qualité des données qui utilise un modèle de référence pré-entraîné comme guide pour évaluer l'utilité des échantillons de données pour l'entraînement d'un nouveau modèle. Il repose sur l'alignement entre le gradient des nouveaux paramètres du modèle et le vecteur pointant vers le modèle de référence dans l'espace des poids. Les échantillons qui ne s'alignent pas dans cette direction sont considérés comme ayant une faible valeur et peuvent être filtrés. Inspiré par le score Mimic, nous développons Grad-Mimic, un cadre de sélection de données qui identifie et priorise les échantillons utiles, automatisant le processus de sélection pour créer des filtres efficaces. Empiriquement, l'utilisation des scores Mimic pour guider l'entraînement du modèle entraîne des gains de performance cohérents sur six ensembles de données d'images et améliore les performances des modèles CLIP. De plus, les scores Mimic et leurs filtres associés améliorent les méthodes de filtrage existantes et offrent une estimation précise de la qualité de l'ensemble de données.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary