SELECT: Ein Benchmark im großen Maßstab für Datenkurationsstrategien zur Bildklassifizierung

papers.abstract

Die Datenkuratierung ist das Problem, wie man Proben sammelt und organisiert, um ein Dataset zu erstellen, das effizientes Lernen unterstützt. Trotz der zentralen Bedeutung dieser Aufgabe wurde bisher wenig Arbeit darauf verwendet, verschiedene Kuratierungsmethoden groß angelegt und systematisch zu vergleichen. In dieser Arbeit gehen wir Schritte in Richtung einer formalen Bewertung von Datenkurierungsstrategien und stellen SELECT vor, den ersten groß angelegten Benchmark für Kuratierungsstrategien für die Bildklassifizierung. Um Basismethoden für den SELECT-Benchmark zu generieren, erstellen wir ein neues Dataset, ImageNet++, das bisher das größte Superset von ImageNet-1K darstellt. Unser Dataset erweitert ImageNet um 5 neue Trainingsdatenverschiebungen, von denen jede ungefähr die Größe von ImageNet-1K selbst hat und jeweils unter Verwendung einer unterschiedlichen Kuratierungsstrategie zusammengestellt wurde. Wir bewerten unsere Datenkurierungsbaselines auf zwei Arten: (i) Verwendung jeder Trainingsdatenverschiebung, um identische Bildklassifizierungsmodelle von Grund auf zu trainieren, und (ii) Verwendung der Daten selbst, um eine vortrainierte selbstüberwachte Repräsentation anzupassen. Unsere Ergebnisse zeigen interessante Trends, insbesondere im Hinblick auf aktuelle Methoden zur Datenkuratierung wie die Generierung synthetischer Daten und das Suchen anhand von CLIP-Einbettungen. Wir zeigen, dass obwohl diese Strategien für bestimmte Aufgaben sehr wettbewerbsfähig sind, die Kuratierungsstrategie, die zur Zusammenstellung des originalen ImageNet-1K-Datasets verwendet wurde, weiterhin als Goldstandard gilt. Wir erwarten, dass unser Benchmark den Weg für neue Methoden aufzeigen kann, um die Kluft weiter zu verringern. Wir veröffentlichen unsere Checkpoints, den Code, die Dokumentation und einen Link zu unserem Dataset unter https://github.com/jimmyxu123/SELECT.

English

Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.

SELECT: Ein Benchmark im großen Maßstab für Datenkurationsstrategien zur Bildklassifizierung

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification

papers.abstract

Support