MoDE : Experts de données CLIP via clustering
MoDE: CLIP Data Experts via Clustering
April 24, 2024
Auteurs: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI
Résumé
Le succès du pré-entraînement contrastif image-texte (CLIP) repose sur la supervision issue de l'appariement entre images et légendes, qui tend à être bruité dans les données collectées sur le web. Nous présentons Mixture of Data Experts (MoDE) et apprenons un système d'experts de données CLIP via un clustering. Chaque expert de données est entraîné sur un cluster de données, étant moins sensible aux bruits de faux négatifs dans les autres clusters. Au moment de l'inférence, nous combinons leurs sorties en appliquant des poids déterminés par la corrélation entre les métadonnées de la tâche et les conditions des clusters. Pour estimer précisément cette corrélation, les échantillons d'un cluster doivent être sémantiquement similaires, mais le nombre d'experts de données doit rester raisonnable pour l'entraînement et l'inférence. Ainsi, nous considérons l'ontologie du langage humain et proposons d'utiliser des centres de clusters à granularité fine pour représenter chaque expert de données à un niveau de granularité grossière. Les études expérimentales montrent que quatre experts de données CLIP sur ViT-B/16 surpassent le ViT-L/14 d'OpenAI CLIP et OpenCLIP en classification d'images zero-shot, mais avec un coût d'entraînement moindre (<35\%). Par ailleurs, MoDE permet d'entraîner tous les experts de données de manière asynchrone et peut inclure de nouveaux experts de données de manière flexible. Le code est disponible à l'adresse https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the
supervision from the pairing between images and captions, which tends to be
noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn
a system of CLIP data experts via clustering. Each data expert is trained on
one data cluster, being less sensitive to false negative noises in other
clusters. At inference time, we ensemble their outputs by applying weights
determined through the correlation between task metadata and cluster
conditions. To estimate the correlation precisely, the samples in one cluster
should be semantically similar, but the number of data experts should still be
reasonable for training and inference. As such, we consider the ontology in
human language and propose to use fine-grained cluster centers to represent
each data expert at a coarse-grained level. Experimental studies show that four
CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and
OpenCLIP on zero-shot image classification but with less (<35\%) training
cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly
include new data experts. The code is available at
https://github.com/facebookresearch/MetaCLIP/tree/main/mode.Summary
AI-Generated Summary