Curação Automática de Dados para Aprendizado Autossupervisionado: Uma Abordagem Baseada em Agrupamento
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
May 24, 2024
Autores: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Resumo
As características auto-supervisionadas são a base dos sistemas modernos de aprendizado de máquina. Elas são tipicamente pré-treinadas em coleções de dados cuja construção e curadoria geralmente exigem um esforço humano extensivo. Esse processo manual apresenta limitações semelhantes às encontradas no aprendizado supervisionado, por exemplo, a seleção de dados por meio de crowdsourcing é custosa e demorada, impedindo a escalabilidade do tamanho do conjunto de dados. Neste trabalho, consideramos o problema da curadoria automática de conjuntos de dados de alta qualidade para pré-treinamento auto-supervisionado. Postulamos que tais conjuntos de dados devem ser grandes, diversificados e balanceados, e propomos uma abordagem baseada em agrupamento para construir conjuntos que atendam a todos esses critérios. Nosso método envolve aplicações sucessivas e hierárquicas de k-means em um repositório de dados grande e diversificado para obter agrupamentos que se distribuam uniformemente entre os conceitos de dados, seguido por uma etapa de amostragem hierárquica e balanceada desses agrupamentos. Experimentos extensivos em três domínios de dados diferentes, incluindo imagens da web, imagens de satélite e texto, mostram que as características treinadas em nossos conjuntos de dados curados automaticamente superam aquelas treinadas em dados não curados, enquanto se equiparam ou superam as treinadas em dados curados manualmente.
English
Self-supervised features are the cornerstone of modern machine learning
systems. They are typically pre-trained on data collections whose construction
and curation typically require extensive human effort. This manual process has
some limitations similar to those encountered in supervised learning, e.g., the
crowd-sourced selection of data is costly and time-consuming, preventing
scaling the dataset size. In this work, we consider the problem of automatic
curation of high-quality datasets for self-supervised pre-training. We posit
that such datasets should be large, diverse and balanced, and propose a
clustering-based approach for building ones satisfying all these criteria. Our
method involves successive and hierarchical applications of k-means on a
large and diverse data repository to obtain clusters that distribute uniformly
among data concepts, followed by a hierarchical, balanced sampling step from
these clusters. Extensive experiments on three different data domains including
web-based images, satellite images and text show that features trained on our
automatically curated datasets outperform those trained on uncurated data while
being on par or better than ones trained on manually curated data.