MoDE: CLIP-Datenexperten durch Clustering
MoDE: CLIP Data Experts via Clustering
April 24, 2024
Autoren: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI
Zusammenfassung
Der Erfolg des kontrastiven Sprachbild-Vortrainings (CLIP) beruht auf der Überwachung durch die Zuordnung von Bildern und Bildunterschriften, die in von Web-Crawlern gesammelten Daten oft ungenau ist. Wir stellen Mixture of Data Experts (MoDE) vor und lernen ein System von CLIP-Datenexperten durch Clustering. Jeder Datenexperte wird auf einem Datencluster trainiert und ist weniger empfindlich gegenüber falsch negativen Störgeräuschen in anderen Clustern. Zur Inferenzzeit kombinieren wir ihre Ausgaben, indem wir Gewichte anwenden, die durch die Korrelation zwischen Aufgabenmetadaten und Clusterbedingungen bestimmt werden. Um die Korrelation präzise zu schätzen, sollten die Proben in einem Cluster semantisch ähnlich sein, aber die Anzahl der Datenexperten sollte dennoch für das Training und die Inferenz vernünftig sein. Daher berücksichtigen wir die Ontologie in menschlicher Sprache und schlagen vor, feinkörnige Clusterzentren zu verwenden, um jeden Datenexperten auf grober Ebene zu repräsentieren. Experimentelle Studien zeigen, dass vier CLIP-Datenexperten auf ViT-B/16 das ViT-L/14 von OpenAI CLIP und OpenCLIP bei der Null-Shot-Bildklassifizierung übertreffen, jedoch mit weniger (<35\%) Trainingskosten. In der Zwischenzeit kann MoDE alle Datenexperten asynchron trainieren und flexibel neue Datenexperten einschließen. Der Code ist verfügbar unter https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the
supervision from the pairing between images and captions, which tends to be
noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn
a system of CLIP data experts via clustering. Each data expert is trained on
one data cluster, being less sensitive to false negative noises in other
clusters. At inference time, we ensemble their outputs by applying weights
determined through the correlation between task metadata and cluster
conditions. To estimate the correlation precisely, the samples in one cluster
should be semantically similar, but the number of data experts should still be
reasonable for training and inference. As such, we consider the ontology in
human language and propose to use fine-grained cluster centers to represent
each data expert at a coarse-grained level. Experimental studies show that four
CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and
OpenCLIP on zero-shot image classification but with less (<35\%) training
cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly
include new data experts. The code is available at
https://github.com/facebookresearch/MetaCLIP/tree/main/mode.Summary
AI-Generated Summary