자기 지도 학습을 위한 자동 데이터 큐레이션: 클러스터링 기반 접근법
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
May 24, 2024
저자: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
초록
자기 지도 학습(self-supervised) 특징은 현대 머신러닝 시스템의 초석입니다. 이러한 특징은 일반적으로 데이터 수집 및 정제에 광범위한 인간의 노력이 필요한 데이터셋에 대해 사전 학습됩니다. 이 수동적인 과정은 지도 학습에서 마주치는 한계와 유사한 문제를 가지고 있습니다. 예를 들어, 크라우드소싱을 통한 데이터 선택은 비용이 많이 들고 시간이 소모적이어서 데이터셋 크기를 확장하는 데 방해가 됩니다. 본 연구에서는 자기 지도 학습 사전 학습을 위한 고품질 데이터셋의 자동 정제 문제를 고려합니다. 우리는 이러한 데이터셋이 크고 다양하며 균형 잡혀야 한다고 가정하고, 이러한 모든 기준을 충족하는 데이터셋을 구축하기 위한 클러스터링 기반 접근 방식을 제안합니다. 우리의 방법은 대규모 및 다양한 데이터 저장소에 대해 k-means를 연속적이고 계층적으로 적용하여 데이터 개념 간에 균일하게 분포된 클러스터를 얻은 후, 이러한 클러스터에서 계층적이고 균형 잡힌 샘플링 단계를 수행합니다. 웹 기반 이미지, 위성 이미지 및 텍스트를 포함한 세 가지 다른 데이터 도메인에 대한 광범위한 실험 결과, 우리가 자동으로 정제한 데이터셋에서 학습된 특징이 정제되지 않은 데이터에서 학습된 특징보다 우수하며, 수동으로 정제된 데이터에서 학습된 특징과 동등하거나 더 나은 성능을 보임을 확인했습니다.
English
Self-supervised features are the cornerstone of modern machine learning
systems. They are typically pre-trained on data collections whose construction
and curation typically require extensive human effort. This manual process has
some limitations similar to those encountered in supervised learning, e.g., the
crowd-sourced selection of data is costly and time-consuming, preventing
scaling the dataset size. In this work, we consider the problem of automatic
curation of high-quality datasets for self-supervised pre-training. We posit
that such datasets should be large, diverse and balanced, and propose a
clustering-based approach for building ones satisfying all these criteria. Our
method involves successive and hierarchical applications of k-means on a
large and diverse data repository to obtain clusters that distribute uniformly
among data concepts, followed by a hierarchical, balanced sampling step from
these clusters. Extensive experiments on three different data domains including
web-based images, satellite images and text show that features trained on our
automatically curated datasets outperform those trained on uncurated data while
being on par or better than ones trained on manually curated data.