SÉLECTIONNER : Une Étude à Grande Échelle des Stratégies de Curatelle de Données pour la Classification d'Images
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
October 7, 2024
Auteurs: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI
Résumé
La curation des données est le problème de comment collecter et organiser des échantillons dans un ensemble de données qui soutient un apprentissage efficace. Malgré la centralité de la tâche, peu de travaux ont été consacrés à une comparaison systématique à grande échelle des diverses méthodes de curation. Dans ce travail, nous faisons des avancées vers une évaluation formelle des stratégies de curation des données et introduisons SELECT, le premier grand benchmark de stratégies de curation pour la classification d'images.
Pour générer des méthodes de base pour le benchmark SELECT, nous créons un nouveau jeu de données, ImageNet++, qui constitue le plus grand sur-ensemble d'ImageNet-1K à ce jour. Notre ensemble de données étend ImageNet avec 5 nouveaux décalages de données d'entraînement, chacun d'environ la taille d'ImageNet-1K lui-même, et chacun assemblé en utilisant une stratégie de curation distincte. Nous évaluons nos lignes de base de curation des données de deux manières : (i) en utilisant chaque décalage de données d'entraînement pour entraîner des modèles de classification d'images identiques à partir de zéro (ii) en utilisant les données elles-mêmes pour ajuster une représentation auto-supervisée pré-entraînée.
Nos résultats montrent des tendances intéressantes, en particulier concernant les méthodes récentes de curation des données telles que la génération de données synthétiques et la recherche basée sur les plongements CLIP. Nous montrons que bien que ces stratégies soient très compétitives pour certaines tâches, la stratégie de curation utilisée pour assembler l'ensemble de données original ImageNet-1K reste la référence. Nous anticipons que notre benchmark peut éclairer la voie pour de nouvelles méthodes afin de réduire davantage l'écart. Nous mettons à disposition nos points de contrôle, code, documentation et un lien vers notre ensemble de données sur https://github.com/jimmyxu123/SELECT.
English
Data curation is the problem of how to collect and organize samples into a
dataset that supports efficient learning. Despite the centrality of the task,
little work has been devoted towards a large-scale, systematic comparison of
various curation methods. In this work, we take steps towards a formal
evaluation of data curation strategies and introduce SELECT, the first
large-scale benchmark of curation strategies for image classification.
In order to generate baseline methods for the SELECT benchmark, we create a
new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K
to date. Our dataset extends ImageNet with 5 new training-data shifts, each
approximately the size of ImageNet-1K itself, and each assembled using a
distinct curation strategy. We evaluate our data curation baselines in two
ways: (i) using each training-data shift to train identical image
classification models from scratch (ii) using the data itself to fit a
pretrained self-supervised representation.
Our findings show interesting trends, particularly pertaining to recent
methods for data curation such as synthetic data generation and lookup based on
CLIP embeddings. We show that although these strategies are highly competitive
for certain tasks, the curation strategy used to assemble the original
ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark
can illuminate the path for new methods to further reduce the gap. We release
our checkpoints, code, documentation, and a link to our dataset at
https://github.com/jimmyxu123/SELECT.Summary
AI-Generated Summary