SELECT: Ein Benchmark im großen Maßstab für Datenkurationsstrategien zur Bildklassifizierung
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
October 7, 2024
Autoren: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI
Zusammenfassung
Die Datenkuratierung ist das Problem, wie man Proben sammelt und organisiert, um ein Dataset zu erstellen, das effizientes Lernen unterstützt. Trotz der zentralen Bedeutung dieser Aufgabe wurde bisher wenig Arbeit darauf verwendet, verschiedene Kuratierungsmethoden groß angelegt und systematisch zu vergleichen. In dieser Arbeit gehen wir Schritte in Richtung einer formalen Bewertung von Datenkurierungsstrategien und stellen SELECT vor, den ersten groß angelegten Benchmark für Kuratierungsstrategien für die Bildklassifizierung.
Um Basismethoden für den SELECT-Benchmark zu generieren, erstellen wir ein neues Dataset, ImageNet++, das bisher das größte Superset von ImageNet-1K darstellt. Unser Dataset erweitert ImageNet um 5 neue Trainingsdatenverschiebungen, von denen jede ungefähr die Größe von ImageNet-1K selbst hat und jeweils unter Verwendung einer unterschiedlichen Kuratierungsstrategie zusammengestellt wurde. Wir bewerten unsere Datenkurierungsbaselines auf zwei Arten: (i) Verwendung jeder Trainingsdatenverschiebung, um identische Bildklassifizierungsmodelle von Grund auf zu trainieren, und (ii) Verwendung der Daten selbst, um eine vortrainierte selbstüberwachte Repräsentation anzupassen.
Unsere Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf aktuelle Methoden zur Datenkuratierung wie die Generierung synthetischer Daten und das Suchen anhand von CLIP-Einbettungen. Wir zeigen, dass obwohl diese Strategien für bestimmte Aufgaben sehr wettbewerbsfähig sind, die Kuratierungsstrategie, die zur Zusammenstellung des originalen ImageNet-1K-Datasets verwendet wurde, weiterhin als Goldstandard gilt. Wir erwarten, dass unser Benchmark den Weg für neue Methoden aufzeigen kann, um die Kluft weiter zu verringern. Wir veröffentlichen unsere Checkpoints, den Code, die Dokumentation und einen Link zu unserem Dataset unter https://github.com/jimmyxu123/SELECT.
English
Data curation is the problem of how to collect and organize samples into a
dataset that supports efficient learning. Despite the centrality of the task,
little work has been devoted towards a large-scale, systematic comparison of
various curation methods. In this work, we take steps towards a formal
evaluation of data curation strategies and introduce SELECT, the first
large-scale benchmark of curation strategies for image classification.
In order to generate baseline methods for the SELECT benchmark, we create a
new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K
to date. Our dataset extends ImageNet with 5 new training-data shifts, each
approximately the size of ImageNet-1K itself, and each assembled using a
distinct curation strategy. We evaluate our data curation baselines in two
ways: (i) using each training-data shift to train identical image
classification models from scratch (ii) using the data itself to fit a
pretrained self-supervised representation.
Our findings show interesting trends, particularly pertaining to recent
methods for data curation such as synthetic data generation and lookup based on
CLIP embeddings. We show that although these strategies are highly competitive
for certain tasks, the curation strategy used to assemble the original
ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark
can illuminate the path for new methods to further reduce the gap. We release
our checkpoints, code, documentation, and a link to our dataset at
https://github.com/jimmyxu123/SELECT.Summary
AI-Generated Summary