Cura Automatica dei Dati per l'Apprendimento Auto-Supervisionato: Un Approccio Basato sul Clustering
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
May 24, 2024
Autori: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Abstract
Le caratteristiche auto-supervisionate sono il fondamento dei moderni sistemi di apprendimento automatico. Tipicamente, vengono pre-addestrate su raccolte di dati la cui costruzione e cura richiedono un notevole sforzo umano. Questo processo manuale presenta alcune limitazioni simili a quelle riscontrate nell'apprendimento supervisionato, ad esempio, la selezione dei dati tramite crowd-sourcing è costosa e richiede tempo, impedendo di scalare le dimensioni del dataset. In questo lavoro, consideriamo il problema della cura automatica di dataset di alta qualità per il pre-addestramento auto-supervisionato. Proponiamo che tali dataset debbano essere grandi, diversificati e bilanciati, e suggeriamo un approccio basato sul clustering per costruire dataset che soddisfino tutti questi criteri. Il nostro metodo prevede applicazioni successive e gerarchiche di k-means su un ampio e diversificato repository di dati per ottenere cluster che si distribuiscono uniformemente tra i concetti dei dati, seguiti da un passaggio di campionamento gerarchico e bilanciato da questi cluster. Esperimenti estesi su tre diversi domini di dati, tra cui immagini web, immagini satellitari e testo, dimostrano che le caratteristiche addestrate sui nostri dataset curati automaticamente superano quelle addestrate su dati non curati, risultando pari o migliori rispetto a quelle addestrate su dati curati manualmente.
English
Self-supervised features are the cornerstone of modern machine learning
systems. They are typically pre-trained on data collections whose construction
and curation typically require extensive human effort. This manual process has
some limitations similar to those encountered in supervised learning, e.g., the
crowd-sourced selection of data is costly and time-consuming, preventing
scaling the dataset size. In this work, we consider the problem of automatic
curation of high-quality datasets for self-supervised pre-training. We posit
that such datasets should be large, diverse and balanced, and propose a
clustering-based approach for building ones satisfying all these criteria. Our
method involves successive and hierarchical applications of k-means on a
large and diverse data repository to obtain clusters that distribute uniformly
among data concepts, followed by a hierarchical, balanced sampling step from
these clusters. Extensive experiments on three different data domains including
web-based images, satellite images and text show that features trained on our
automatically curated datasets outperform those trained on uncurated data while
being on par or better than ones trained on manually curated data.