SELECT: Un amplio conjunto de datos de referencia de estrategias de curación de datos para la clasificación de imágenes
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification
October 7, 2024
Autores: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI
Resumen
La curación de datos es el problema de cómo recopilar y organizar muestras en un conjunto de datos que respalde un aprendizaje eficiente. A pesar de la centralidad de la tarea, se ha dedicado poco trabajo a una comparación sistemática a gran escala de varios métodos de curación. En este trabajo, damos pasos hacia una evaluación formal de estrategias de curación de datos e introducimos SELECT, el primer banco de pruebas a gran escala de estrategias de curación para clasificación de imágenes.
Para generar métodos de referencia para el banco de pruebas SELECT, creamos un nuevo conjunto de datos, ImageNet++, que constituye el mayor superset de ImageNet-1K hasta la fecha. Nuestro conjunto de datos extiende ImageNet con 5 nuevos desplazamientos de datos de entrenamiento, cada uno aproximadamente del tamaño de ImageNet-1K en sí mismo, y cada uno ensamblado utilizando una estrategia de curación distinta. Evaluamos nuestras líneas de base de curación de datos de dos maneras: (i) utilizando cada desplazamiento de datos de entrenamiento para entrenar modelos de clasificación de imágenes idénticos desde cero (ii) utilizando los datos mismos para ajustar una representación auto-supervisada preentrenada.
Nuestros hallazgos muestran tendencias interesantes, especialmente relacionadas con métodos recientes de curación de datos como la generación de datos sintéticos y la búsqueda basada en incrustaciones CLIP. Mostramos que aunque estas estrategias son altamente competitivas para ciertas tareas, la estrategia de curación utilizada para ensamblar el conjunto de datos original ImageNet-1K sigue siendo el estándar de oro. Anticipamos que nuestro banco de pruebas puede iluminar el camino para que nuevos métodos reduzcan aún más la brecha. Publicamos nuestros puntos de control, código, documentación y un enlace a nuestro conjunto de datos en https://github.com/jimmyxu123/SELECT.
English
Data curation is the problem of how to collect and organize samples into a
dataset that supports efficient learning. Despite the centrality of the task,
little work has been devoted towards a large-scale, systematic comparison of
various curation methods. In this work, we take steps towards a formal
evaluation of data curation strategies and introduce SELECT, the first
large-scale benchmark of curation strategies for image classification.
In order to generate baseline methods for the SELECT benchmark, we create a
new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K
to date. Our dataset extends ImageNet with 5 new training-data shifts, each
approximately the size of ImageNet-1K itself, and each assembled using a
distinct curation strategy. We evaluate our data curation baselines in two
ways: (i) using each training-data shift to train identical image
classification models from scratch (ii) using the data itself to fit a
pretrained self-supervised representation.
Our findings show interesting trends, particularly pertaining to recent
methods for data curation such as synthetic data generation and lookup based on
CLIP embeddings. We show that although these strategies are highly competitive
for certain tasks, the curation strategy used to assemble the original
ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark
can illuminate the path for new methods to further reduce the gap. We release
our checkpoints, code, documentation, and a link to our dataset at
https://github.com/jimmyxu123/SELECT.Summary
AI-Generated Summary