Curación Automática de Datos para Aprendizaje Autosupervisado: Un Enfoque Basado en Agrupamiento
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
May 24, 2024
Autores: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Resumen
Las características auto-supervisadas son la piedra angular de los sistemas modernos de aprendizaje automático. Normalmente se pre-entrenan en colecciones de datos cuya construcción y curaduría requieren un esfuerzo humano considerable. Este proceso manual tiene algunas limitaciones similares a las encontradas en el aprendizaje supervisado, por ejemplo, la selección de datos mediante crowdsourcing es costosa y consume mucho tiempo, lo que impide escalar el tamaño del conjunto de datos. En este trabajo, consideramos el problema de la curaduría automática de conjuntos de datos de alta calidad para el pre-entrenamiento auto-supervisado. Postulamos que dichos conjuntos de datos deben ser grandes, diversos y equilibrados, y proponemos un enfoque basado en clustering para construir conjuntos que satisfagan todos estos criterios. Nuestro método implica aplicaciones sucesivas y jerárquicas de k-means sobre un repositorio de datos grande y diverso para obtener clusters que se distribuyan uniformemente entre los conceptos de los datos, seguido de un paso de muestreo jerárquico y equilibrado a partir de estos clusters. Experimentos exhaustivos en tres dominios de datos diferentes, incluyendo imágenes web, imágenes satelitales y texto, muestran que las características entrenadas en nuestros conjuntos de datos curados automáticamente superan a las entrenadas en datos no curados, mientras que son comparables o mejores que las entrenadas en datos curados manualmente.
English
Self-supervised features are the cornerstone of modern machine learning
systems. They are typically pre-trained on data collections whose construction
and curation typically require extensive human effort. This manual process has
some limitations similar to those encountered in supervised learning, e.g., the
crowd-sourced selection of data is costly and time-consuming, preventing
scaling the dataset size. In this work, we consider the problem of automatic
curation of high-quality datasets for self-supervised pre-training. We posit
that such datasets should be large, diverse and balanced, and propose a
clustering-based approach for building ones satisfying all these criteria. Our
method involves successive and hierarchical applications of k-means on a
large and diverse data repository to obtain clusters that distribute uniformly
among data concepts, followed by a hierarchical, balanced sampling step from
these clusters. Extensive experiments on three different data domains including
web-based images, satellite images and text show that features trained on our
automatically curated datasets outperform those trained on uncurated data while
being on par or better than ones trained on manually curated data.Summary
AI-Generated Summary