MoDE: CLIP Data Experts via Clustering
MoDE: CLIP Data Experts via Clustering
April 24, 2024
Auteurs: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI
Samenvatting
Het succes van contrastief taal-beeld vooraf trainen (CLIP) berust op de
supervisie van de koppeling tussen afbeeldingen en bijschriften, die vaak
ruis bevat in webgehaalde data. Wij presenteren Mixture of Data Experts (MoDE)
en leren een systeem van CLIP-data-experts via clustering. Elke data-expert
wordt getraind op één datacluster, waardoor deze minder gevoelig is voor
fout-negatieve ruis in andere clusters. Tijdens inferentie combineren we hun
uitvoer door gewichten toe te passen die worden bepaald via de correlatie
tussen taakmetadata en clustercondities. Om de correlatie nauwkeurig te
schatten, moeten de samples in één cluster semantisch vergelijkbaar zijn, maar
het aantal data-experts moet nog steeds redelijk blijven voor training en
inferentie. Daarom overwegen we de ontologie in menselijke taal en stellen we
voor om fijnmazige clustercentra te gebruiken om elke data-expert op een
grofmazig niveau te representeren. Experimentele studies tonen aan dat vier
CLIP-data-experts op ViT-B/16 de ViT-L/14 van OpenAI CLIP en OpenCLIP
overtreffen bij zero-shot beeldclassificatie, maar met minder (<35\%)
trainingskosten. Tegelijkertijd kan MoDE alle data-experts asynchroon trainen
en kan het flexibel nieuwe data-experts toevoegen. De code is beschikbaar op
https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the
supervision from the pairing between images and captions, which tends to be
noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn
a system of CLIP data experts via clustering. Each data expert is trained on
one data cluster, being less sensitive to false negative noises in other
clusters. At inference time, we ensemble their outputs by applying weights
determined through the correlation between task metadata and cluster
conditions. To estimate the correlation precisely, the samples in one cluster
should be semantically similar, but the number of data experts should still be
reasonable for training and inference. As such, we consider the ontology in
human language and propose to use fine-grained cluster centers to represent
each data expert at a coarse-grained level. Experimental studies show that four
CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and
OpenCLIP on zero-shot image classification but with less (<35\%) training
cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly
include new data experts. The code is available at
https://github.com/facebookresearch/MetaCLIP/tree/main/mode.