ChatPaper.aiChatPaper

Метод: CLIP - эксперты по данным с помощью кластеризации

MoDE: CLIP Data Experts via Clustering

April 24, 2024
Авторы: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI

Аннотация

Успех контрастного предварительного обучения язык-изображение (CLIP) зависит от наблюдения за соответствием между изображениями и подписями, которое часто является шумным в данных, полученных из веб-сканирования. Мы представляем Модель смеси данных экспертов (MoDE) и обучаем систему экспертов по данным CLIP с помощью кластеризации. Каждый эксперт по данным обучается на одном кластере данных, что делает его менее чувствительным к ложным отрицательным шумам в других кластерах. На этапе вывода мы объединяем их результаты, применяя веса, определяемые через корреляцию между метаданными задачи и условиями кластера. Для точной оценки корреляции образцы в одном кластере должны быть семантически похожими, но количество экспертов по данным должно быть все же разумным для обучения и вывода. Поэтому мы рассматриваем онтологию в человеческом языке и предлагаем использовать точные центры кластеров для представления каждого эксперта по данным на грубом уровне. Экспериментальные исследования показывают, что четыре эксперта по данным CLIP на модели ViT-B/16 превосходят модель ViT-L/14 от OpenAI CLIP и OpenCLIP в классификации изображений с нулевым обучением, но с меньшими (<35\%) затратами на обучение. Тем временем, MoDE может обучать всех экспертов по данным асинхронно и гибко включать новых экспертов по данным. Код доступен по ссылке https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the supervision from the pairing between images and captions, which tends to be noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn a system of CLIP data experts via clustering. Each data expert is trained on one data cluster, being less sensitive to false negative noises in other clusters. At inference time, we ensemble their outputs by applying weights determined through the correlation between task metadata and cluster conditions. To estimate the correlation precisely, the samples in one cluster should be semantically similar, but the number of data experts should still be reasonable for training and inference. As such, we consider the ontology in human language and propose to use fine-grained cluster centers to represent each data expert at a coarse-grained level. Experimental studies show that four CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and OpenCLIP on zero-shot image classification but with less (<35\%) training cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly include new data experts. The code is available at https://github.com/facebookresearch/MetaCLIP/tree/main/mode.

Summary

AI-Generated Summary

PDF151December 15, 2024