ChatPaper.aiChatPaper

MoDE: CLIP Data Experts via Clustering

MoDE: CLIP Data Experts via Clustering

April 24, 2024
Auteurs: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI

Samenvatting

Het succes van contrastief taal-beeld vooraf trainen (CLIP) berust op de supervisie van de koppeling tussen afbeeldingen en bijschriften, die vaak ruis bevat in webgehaalde data. Wij presenteren Mixture of Data Experts (MoDE) en leren een systeem van CLIP-data-experts via clustering. Elke data-expert wordt getraind op één datacluster, waardoor deze minder gevoelig is voor fout-negatieve ruis in andere clusters. Tijdens inferentie combineren we hun uitvoer door gewichten toe te passen die worden bepaald via de correlatie tussen taakmetadata en clustercondities. Om de correlatie nauwkeurig te schatten, moeten de samples in één cluster semantisch vergelijkbaar zijn, maar het aantal data-experts moet nog steeds redelijk blijven voor training en inferentie. Daarom overwegen we de ontologie in menselijke taal en stellen we voor om fijnmazige clustercentra te gebruiken om elke data-expert op een grofmazig niveau te representeren. Experimentele studies tonen aan dat vier CLIP-data-experts op ViT-B/16 de ViT-L/14 van OpenAI CLIP en OpenCLIP overtreffen bij zero-shot beeldclassificatie, maar met minder (<35\%) trainingskosten. Tegelijkertijd kan MoDE alle data-experts asynchroon trainen en kan het flexibel nieuwe data-experts toevoegen. De code is beschikbaar op https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the supervision from the pairing between images and captions, which tends to be noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn a system of CLIP data experts via clustering. Each data expert is trained on one data cluster, being less sensitive to false negative noises in other clusters. At inference time, we ensemble their outputs by applying weights determined through the correlation between task metadata and cluster conditions. To estimate the correlation precisely, the samples in one cluster should be semantically similar, but the number of data experts should still be reasonable for training and inference. As such, we consider the ontology in human language and propose to use fine-grained cluster centers to represent each data expert at a coarse-grained level. Experimental studies show that four CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and OpenCLIP on zero-shot image classification but with less (<35\%) training cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly include new data experts. The code is available at https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
PDF151December 15, 2024