SELECIONAR: Um Amplo Benchmark de Estratégias de Curadoria de Dados para Classificação de Imagens
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
October 7, 2024
Autores: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI
Resumo
A curadoria de dados é o problema de como coletar e organizar amostras em um conjunto de dados que suporta aprendizado eficiente. Apesar da centralidade da tarefa, pouco trabalho foi dedicado a uma comparação sistemática em larga escala de vários métodos de curadoria. Neste trabalho, damos passos em direção a uma avaliação formal de estratégias de curadoria de dados e apresentamos o SELECT, o primeiro benchmark em larga escala de estratégias de curadoria para classificação de imagens.
Para gerar métodos de referência para o benchmark SELECT, criamos um novo conjunto de dados, ImageNet++, que constitui o maior subconjunto do ImageNet-1K até o momento. Nosso conjunto de dados estende o ImageNet com 5 novos deslocamentos de dados de treinamento, cada um aproximadamente do tamanho do próprio ImageNet-1K, e cada um montado usando uma estratégia de curadoria distinta. Avaliamos nossas linhas de base de curadoria de dados de duas maneiras: (i) usando cada deslocamento de dados de treinamento para treinar modelos de classificação de imagens idênticos do zero (ii) usando os dados em si para ajustar uma representação auto-supervisionada pré-treinada.
Nossas descobertas mostram tendências interessantes, especialmente relacionadas a métodos recentes de curadoria de dados, como geração de dados sintéticos e busca baseada em embeddings CLIP. Mostramos que, embora essas estratégias sejam altamente competitivas para certas tarefas, a estratégia de curadoria usada para montar o conjunto de dados original do ImageNet-1K permanece como padrão-ouro. Antecipamos que nosso benchmark pode iluminar o caminho para novos métodos para reduzir ainda mais a lacuna. Disponibilizamos nossos pontos de verificação, código, documentação e um link para nosso conjunto de dados em https://github.com/jimmyxu123/SELECT.
English
Data curation is the problem of how to collect and organize samples into a
dataset that supports efficient learning. Despite the centrality of the task,
little work has been devoted towards a large-scale, systematic comparison of
various curation methods. In this work, we take steps towards a formal
evaluation of data curation strategies and introduce SELECT, the first
large-scale benchmark of curation strategies for image classification.
In order to generate baseline methods for the SELECT benchmark, we create a
new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K
to date. Our dataset extends ImageNet with 5 new training-data shifts, each
approximately the size of ImageNet-1K itself, and each assembled using a
distinct curation strategy. We evaluate our data curation baselines in two
ways: (i) using each training-data shift to train identical image
classification models from scratch (ii) using the data itself to fit a
pretrained self-supervised representation.
Our findings show interesting trends, particularly pertaining to recent
methods for data curation such as synthetic data generation and lookup based on
CLIP embeddings. We show that although these strategies are highly competitive
for certain tasks, the curation strategy used to assemble the original
ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark
can illuminate the path for new methods to further reduce the gap. We release
our checkpoints, code, documentation, and a link to our dataset at
https://github.com/jimmyxu123/SELECT.Summary
AI-Generated Summary