Оценка полезности выборки для выбора данных путем имитации весов модели
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
January 12, 2025
Авторы: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
cs.AI
Аннотация
Фундаментальные модели основаны на масштабных наборах данных, полученных путем сканирования веб-страниц, которые часто содержат шумные данные, предвзятости и неактуальный контент. Существующие методы выбора данных обычно используют эвристику человека, наборы данных для оценки результатов или специализированные модели оценки, и могут упустить полезность образцов в процессе обучения. Вместо этого мы предлагаем новый подход, Mimic Score, метрику качества данных, которая использует предварительно обученную эталонную модель в качестве руководства для оценки полезности образцов данных для обучения новой модели. Она основана на согласованности между градиентом параметров новой модели и вектором, направленным к эталонной модели в пространстве весов. Образцы, не согласующиеся с этим направлением, считаются низкоценными и могут быть отфильтрованы. Вдохновленные Mimic Score, мы разрабатываем Grad-Mimic, фреймворк выбора данных, который идентифицирует и приоритизирует полезные образцы, автоматизируя процесс выбора для создания эффективных фильтров. Эмпирически, использование Mimic Score для руководства обучением модели приводит к последовательному увеличению производительности на шести наборах данных изображений и улучшает производительность моделей CLIP. Более того, Mimic Score и связанные с ними фильтры улучшают существующие методы фильтрации и предлагают точную оценку качества набора данных.
English
Foundation models rely on large-scale web-crawled datasets, which frequently
contain noisy data, biases, and irrelevant content. Existing data selection
techniques typically use human heuristics, downstream evaluation datasets, or
specialized scoring models, and can overlook samples' utility in the training
process. Instead, we propose a new approach, Mimic Score, a data quality metric
that uses a pretrained reference model as a guide to assess the usefulness of
data samples for training a new model. It relies on the alignment between the
gradient of the new model parameters and the vector pointing toward the
reference model in weight space. Samples that misalign with this direction are
considered low-value and can be filtered out. Motivated by the Mimic score, we
develop Grad-Mimic, a data selection framework that identifies and prioritizes
useful samples, automating the selection process to create effective filters.
Empirically, using Mimic scores to guide model training results in consistent
performance gains across six image datasets and enhances the performance of
CLIP models. Moreover, Mimic scores and their associated filters improve upon
existing filtering methods and offer accurate estimation of dataset quality.Summary
AI-Generated Summary