ChatPaper.aiChatPaper

Curration Automatique des Données pour l'Apprentissage Auto-Supervisé : Une Approche Basée sur le Clustering

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

May 24, 2024
papers.authors: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI

papers.abstract

Les caractéristiques auto-supervisées constituent la pierre angulaire des systèmes modernes d'apprentissage automatique. Elles sont généralement pré-entraînées sur des collections de données dont la construction et la curation nécessitent un effort humain considérable. Ce processus manuel présente certaines limitations similaires à celles rencontrées dans l'apprentissage supervisé, par exemple, la sélection de données via le crowdsourcing est coûteuse et chronophage, empêchant ainsi la mise à l'échelle de la taille des ensembles de données. Dans ce travail, nous examinons le problème de la curation automatique de jeux de données de haute qualité pour le pré-entraînement auto-supervisé. Nous postulons que de tels jeux de données doivent être volumineux, diversifiés et équilibrés, et proposons une approche basée sur le clustering pour en construire qui satisfont tous ces critères. Notre méthode implique des applications successives et hiérarchiques de k-means sur un vaste référentiel de données diversifié pour obtenir des clusters répartis uniformément parmi les concepts de données, suivies d'une étape d'échantillonnage hiérarchique et équilibré à partir de ces clusters. Des expériences approfondies sur trois domaines de données différents, incluant des images web, des images satellites et du texte, montrent que les caractéristiques entraînées sur nos jeux de données automatiquement curés surpassent celles entraînées sur des données non curées, tout en étant comparables ou supérieures à celles entraînées sur des données curées manuellement.
English
Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of k-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data.
PDF180December 15, 2024