ChatPaper.aiChatPaper

Automatische Datacuratie voor Zelfsupervisie Leren: Een Clustering-Gebaseerde Aanpak

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

May 24, 2024
Auteurs: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI

Samenvatting

Zelfgesuperviseerde kenmerken vormen de hoeksteen van moderne machine learning-systemen. Ze worden doorgaans voorgetraind op gegevensverzamelingen waarvan de constructie en curatie meestal uitgebreide menselijke inspanning vereisen. Dit handmatige proces kent enkele beperkingen die vergelijkbaar zijn met die in gesuperviseerd leren, zoals de kostbare en tijdrovende crowdsourced selectie van gegevens, wat het opschalen van de datasetgrootte belemmert. In dit werk beschouwen we het probleem van de automatische curatie van hoogwaardige datasets voor zelfgesuperviseerde voorpretraining. We stellen dat dergelijke datasets groot, divers en gebalanceerd moeten zijn, en stellen een op clustering gebaseerde aanpak voor om datasets te bouwen die aan al deze criteria voldoen. Onze methode omvat opeenvolgende en hiërarchische toepassingen van k-means op een grote en diverse gegevensrepository om clusters te verkrijgen die uniform verdeeld zijn over gegevensconcepten, gevolgd door een hiërarchische, gebalanceerde steekproef uit deze clusters. Uitgebreide experimenten op drie verschillende gegevensdomeinen, waaronder webbased afbeeldingen, satellietafbeeldingen en tekst, tonen aan dat kenmerken die zijn getraind op onze automatisch gecureerde datasets beter presteren dan die getraind op ongecureerde gegevens, terwijl ze vergelijkbaar of beter zijn dan die getraind op handmatig gecureerde gegevens.
English
Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of k-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data.
PDF170December 15, 2024