Автоматическая куратория данных для обучения без учителя: подход на основе кластеризации
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach
May 24, 2024
Авторы: Huy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Аннотация
Самообучаемые признаки являются основой современных систем машинного обучения. Обычно они предварительно обучаются на наборах данных, для создания и курирования которых требуется значительное человеческое усилие. Этот ручной процесс имеет некоторые ограничения, аналогичные тем, с которыми сталкиваются в обучении с учителем, например, выбор данных с привлечением широких масс требует затрат и времени, что затрудняет масштабирование размера набора данных. В данной работе мы рассматриваем проблему автоматического курирования высококачественных наборов данных для предварительного самообучения. Мы предполагаем, что такие наборы данных должны быть большими, разнообразными и сбалансированными, и предлагаем подход на основе кластеризации для построения тех, которые удовлетворяют всем этим критериям. Наш метод включает последовательное и иерархическое применение метода k-средних к большому и разнообразному репозиторию данных для получения кластеров, которые равномерно распределяются по концепциям данных, а затем иерархический этап сбалансированной выборки из этих кластеров. Обширные эксперименты на трех различных областях данных, включая изображения из веба, спутниковые изображения и текст, показывают, что признаки, обученные на наших автоматически курированных наборах данных, превосходят те, которые обучены на некурированных данных, сохраняя при этом уровень или превосходя те, которые обучены на ручно курированных данных.
English
Self-supervised features are the cornerstone of modern machine learning
systems. They are typically pre-trained on data collections whose construction
and curation typically require extensive human effort. This manual process has
some limitations similar to those encountered in supervised learning, e.g., the
crowd-sourced selection of data is costly and time-consuming, preventing
scaling the dataset size. In this work, we consider the problem of automatic
curation of high-quality datasets for self-supervised pre-training. We posit
that such datasets should be large, diverse and balanced, and propose a
clustering-based approach for building ones satisfying all these criteria. Our
method involves successive and hierarchical applications of k-means on a
large and diverse data repository to obtain clusters that distribute uniformly
among data concepts, followed by a hierarchical, balanced sampling step from
these clusters. Extensive experiments on three different data domains including
web-based images, satellite images and text show that features trained on our
automatically curated datasets outperform those trained on uncurated data while
being on par or better than ones trained on manually curated data.Summary
AI-Generated Summary