ChatPaper.aiChatPaper

이미지 분류를 위한 데이터 정제 전략의 대규모 벤치마킹인 SELECT

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification

October 7, 2024
저자: Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde
cs.AI

초록

데이터 큐레이션은 효율적인 학습을 지원하는 데이터셋으로 샘플을 수집하고 구성하는 문제입니다. 이 작업의 중요성에도 불구하고 다양한 큐레이션 방법의 대규모이고 체계적인 비교에 대한 노력은 미미합니다. 본 연구에서는 데이터 큐레이션 전략의 형식적 평가를 위해 SELECT라는 이미지 분류를 위한 큐레이션 전략의 대규모 벤치마킹을 소개하며 이에 한걸음 나아갑니다. SELECT 벤치마킹을 위한 기준선 방법을 생성하기 위해 ImageNet-1K의 최대의 슈퍼셋인 ImageNet++ 데이터셋을 새롭게 만들었습니다. 우리의 데이터셋은 ImageNet을 5개의 새로운 훈련 데이터 변형으로 확장하였으며, 각각은 ImageNet-1K의 크기와 유사하며 각각이 구별된 큐레이션 전략을 사용하여 구성되었습니다. 우리는 데이터 큐레이션 기준선을 두 가지 방법으로 평가합니다: (i) 각 훈련 데이터 변형을 사용하여 동일한 이미지 분류 모델을 처음부터 훈련시키고 (ii) 데이터 자체를 사용하여 사전 훈련된 자기 지도 표현을 맞추는 것입니다. 우리의 연구 결과는 최근의 데이터 큐레이션 방법에 특히 합성 데이터 생성 및 CLIP 임베딩을 기반으로 한 룩업과 관련된 흥미로운 추세를 보여줍니다. 이러한 전략이 특정 작업에 대해 매우 경쟁력이 있다는 것을 보여주지만, 원래 ImageNet-1K 데이터셋을 구성하는 데 사용된 큐레이션 전략이 여전히 최고의 기준이라는 것을 보여줍니다. 우리의 벤치마크가 새로운 방법이 간극을 더욱 줄이기 위한 길을 밝힐 것으로 기대합니다. 우리는 https://github.com/jimmyxu123/SELECT에서 우리의 체크포인트, 코드, 문서 및 데이터셋 링크를 공개합니다.
English
Data curation is the problem of how to collect and organize samples into a dataset that supports efficient learning. Despite the centrality of the task, little work has been devoted towards a large-scale, systematic comparison of various curation methods. In this work, we take steps towards a formal evaluation of data curation strategies and introduce SELECT, the first large-scale benchmark of curation strategies for image classification. In order to generate baseline methods for the SELECT benchmark, we create a new dataset, ImageNet++, which constitutes the largest superset of ImageNet-1K to date. Our dataset extends ImageNet with 5 new training-data shifts, each approximately the size of ImageNet-1K itself, and each assembled using a distinct curation strategy. We evaluate our data curation baselines in two ways: (i) using each training-data shift to train identical image classification models from scratch (ii) using the data itself to fit a pretrained self-supervised representation. Our findings show interesting trends, particularly pertaining to recent methods for data curation such as synthetic data generation and lookup based on CLIP embeddings. We show that although these strategies are highly competitive for certain tasks, the curation strategy used to assemble the original ImageNet-1K dataset remains the gold standard. We anticipate that our benchmark can illuminate the path for new methods to further reduce the gap. We release our checkpoints, code, documentation, and a link to our dataset at https://github.com/jimmyxu123/SELECT.

Summary

AI-Generated Summary

PDF72November 16, 2024