Het evalueren van steekproefnut voor gegevensselectie door het nabootsen van modelgewichten.
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Auteurs: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Samenvatting
Foundation modellen vertrouwen op grootschalige web-gecrawlede datasets, die vaak ruisige data, biases en irrelevante inhoud bevatten. Bestaande data selectietechnieken maken doorgaans gebruik van menselijke heuristieken, downstream evaluatiedatasets of gespecialiseerde scoringsmodellen, en kunnen de bruikbaarheid van samples in het trainingsproces over het hoofd zien. In plaats daarvan stellen we een nieuwe benadering voor, Mimic Score, een datakwaliteitsmetriek die een voortraind referentiemodel gebruikt als gids om de bruikbaarheid van datasamples voor het trainen van een nieuw model te beoordelen. Het vertrouwt op de afstemming tussen de gradiënt van de nieuwe modelparameters en de vector die naar het referentiemodel wijst in het gewichtsruimte. Samples die niet in lijn liggen met deze richting worden beschouwd als van lage waarde en kunnen worden gefilterd. Geïnspireerd door de Mimic score, ontwikkelen we Grad-Mimic, een data selectiekader dat nuttige samples identificeert en prioriteert, waarbij het selectieproces geautomatiseerd wordt om effectieve filters te creëren. Empirisch gezien leidt het gebruik van Mimic scores om modeltraining te begeleiden tot consistente prestatieverbeteringen over zes beelddatasets en verbetert het de prestaties van CLIP modellen. Bovendien verbeteren Mimic scores en hun bijbehorende filters bestaande filtermethoden en bieden ze een nauwkeurige schatting van de datasetkwaliteit.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary