ChatPaper.aiChatPaper

Automatische Datenkuratierung für selbstüberwachtes Lernen: Ein auf Clustering basierender Ansatz

Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

May 24, 2024
Autoren: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI

Zusammenfassung

Selbstüberwachte Merkmale sind der Eckpfeiler moderner maschineller Lernsysteme. Sie werden in der Regel vorab auf Datensammlungen trainiert, deren Erstellung und Pflege in der Regel einen erheblichen menschlichen Aufwand erfordern. Dieser manuelle Prozess hat einige Einschränkungen, die denen im überwachten Lernen ähneln, z. B. ist die Auswahl von Daten durch Crowdsourcing kostspielig und zeitaufwändig, was die Skalierung der Datensatzgröße verhindert. In dieser Arbeit betrachten wir das Problem der automatischen Pflege hochwertiger Datensätze für die selbstüberwachte Vorabtrainierung. Wir postulieren, dass solche Datensätze groß, vielfältig und ausgewogen sein sollten, und schlagen einen clusteringbasierten Ansatz vor, um solche zu erstellen, die all diese Kriterien erfüllen. Unsere Methode beinhaltet aufeinanderfolgende und hierarchische Anwendungen von k-Means auf einem großen und vielfältigen Datenrepository, um Cluster zu erhalten, die gleichmäßig über Datenkonzepte verteilt sind, gefolgt von einem hierarchischen, ausgewogenen Stichprobenentnahmeschritt aus diesen Clustern. Umfangreiche Experimente in drei verschiedenen Datenbereichen, einschließlich webbasierter Bilder, Satellitenbilder und Texte, zeigen, dass Merkmale, die auf unseren automatisch gepflegten Datensätzen trainiert sind, solche übertreffen, die auf ungepflegten Daten trainiert sind, während sie auf dem Niveau oder besser als diejenigen abschneiden, die auf manuell gepflegten Daten trainiert sind.
English
Self-supervised features are the cornerstone of modern machine learning systems. They are typically pre-trained on data collections whose construction and curation typically require extensive human effort. This manual process has some limitations similar to those encountered in supervised learning, e.g., the crowd-sourced selection of data is costly and time-consuming, preventing scaling the dataset size. In this work, we consider the problem of automatic curation of high-quality datasets for self-supervised pre-training. We posit that such datasets should be large, diverse and balanced, and propose a clustering-based approach for building ones satisfying all these criteria. Our method involves successive and hierarchical applications of k-means on a large and diverse data repository to obtain clusters that distribute uniformly among data concepts, followed by a hierarchical, balanced sampling step from these clusters. Extensive experiments on three different data domains including web-based images, satellite images and text show that features trained on our automatically curated datasets outperform those trained on uncurated data while being on par or better than ones trained on manually curated data.

Summary

AI-Generated Summary

PDF180December 15, 2024