ChatPaper.aiChatPaper

SELEZIONE: Un ampio benchmark delle strategie di cura dei dati per la classificazione delle immagini

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification

October 7, 2024
Autori: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI

Abstract

La curatela dei dati è il problema di come raccogliere e organizzare campioni in un dataset che supporti un apprendimento efficiente. Nonostante l'importanza del compito, poco lavoro è stato dedicato a un confronto sistematico su larga scala di vari metodi di curatela. In questo lavoro, compiamo passi verso una valutazione formale delle strategie di curatela dei dati e presentiamo SELECT, il primo benchmark su larga scala delle strategie di curatela per la classificazione delle immagini. Per generare metodi di base per il benchmark SELECT, creiamo un nuovo dataset, ImageNet++, che costituisce il più grande superinsieme di ImageNet-1K ad oggi. Il nostro dataset estende ImageNet con 5 nuovi spostamenti dei dati di addestramento, ognuno approssimativamente delle dimensioni di ImageNet-1K stesso, e ognuno assemblato utilizzando una strategia di curatela distinta. Valutiamo i nostri metodi di curatela dei dati di base in due modi: (i) utilizzando ciascun spostamento dei dati di addestramento per addestrare modelli di classificazione delle immagini identici da zero (ii) utilizzando i dati stessi per adattare una rappresentazione auto-supervisionata preaddestrata. Le nostre scoperte mostrano tendenze interessanti, in particolare riguardanti i metodi recenti per la curatela dei dati come la generazione di dati sintetici e la ricerca basata su embedding CLIP. Mostriamo che sebbene queste strategie siano altamente competitive per determinati compiti, la strategia di curatela utilizzata per assemblare il dataset originale ImageNet-1K rimane lo standard aureo. Prevediamo che il nostro benchmark possa illuminare il percorso per nuovi metodi per ridurre ulteriormente il divario. Rilasciamo i nostri checkpoint, codice, documentazione e un link al nostro dataset su https://github.com/jimmyxu123/SELECT.
English
Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.
PDF72November 16, 2024