Оценка полезности выборки для выбора данных путем имитации весов модели

Аннотация

Фундаментальные модели основаны на масштабных наборах данных, полученных путем сканирования веб-страниц, которые часто содержат шумные данные, предвзятости и неактуальный контент. Существующие методы выбора данных обычно используют эвристику человека, наборы данных для оценки результатов или специализированные модели оценки, и могут упустить полезность образцов в процессе обучения. Вместо этого мы предлагаем новый подход, Mimic Score, метрику качества данных, которая использует предварительно обученную эталонную модель в качестве руководства для оценки полезности образцов данных для обучения новой модели. Она основана на согласованности между градиентом параметров новой модели и вектором, направленным к эталонной модели в пространстве весов. Образцы, не согласующиеся с этим направлением, считаются низкоценными и могут быть отфильтрованы. Вдохновленные Mimic Score, мы разрабатываем Grad-Mimic, фреймворк выбора данных, который идентифицирует и приоритизирует полезные образцы, автоматизируя процесс выбора для создания эффективных фильтров. Эмпирически, использование Mimic Score для руководства обучением модели приводит к последовательному увеличению производительности на шести наборах данных изображений и улучшает производительность моделей CLIP. Более того, Mimic Score и связанные с ними фильтры улучшают существующие методы фильтрации и предлагают точную оценку качества набора данных.

English

Foundation models rely on large-scale web-crawled datasets, which frequently contain noisy data, biases, and irrelevant content. Existing data selection techniques typically use human heuristics, downstream evaluation datasets, or specialized scoring models, and can overlook samples' utility in the training process. Instead, we propose a new approach, Mimic Score, a data quality metric that uses a pretrained reference model as a guide to assess the usefulness of data samples for training a new model. It relies on the alignment between the gradient of the new model parameters and the vector pointing toward the reference model in weight space. Samples that misalign with this direction are considered low-value and can be filtered out. Motivated by the Mimic score, we develop Grad-Mimic, a data selection framework that identifies and prioritizes useful samples, automating the selection process to create effective filters. Empirically, using Mimic scores to guide model training results in consistent performance gains across six image datasets and enhances the performance of CLIP models. Moreover, Mimic scores and their associated filters improve upon existing filtering methods and offer accurate estimation of dataset quality.

Оценка полезности выборки для выбора данных путем имитации весов модели

Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Аннотация

Support