MoDE: Esperti di Dati CLIP tramite Clustering

Abstract

Il successo del pre-addestramento contrastivo lingua-immagine (CLIP) si basa sulla supervisione derivante dall'abbinamento tra immagini e didascalie, che tende a essere rumorosa nei dati raccolti dal web. Presentiamo Mixture of Data Experts (MoDE) e apprendiamo un sistema di esperti di dati CLIP tramite clustering. Ogni esperto di dati viene addestrato su un cluster di dati, risultando meno sensibile ai rumori di falsi negativi presenti negli altri cluster. Al momento dell'inferenza, combiniamo i loro output applicando pesi determinati attraverso la correlazione tra i metadati del task e le condizioni del cluster. Per stimare con precisione la correlazione, i campioni in un cluster dovrebbero essere semanticamente simili, ma il numero di esperti di dati dovrebbe comunque essere ragionevole per l'addestramento e l'inferenza. Pertanto, consideriamo l'ontologia nel linguaggio umano e proponiamo di utilizzare centri di cluster a grana fine per rappresentare ogni esperto di dati a un livello a grana grossa. Studi sperimentali dimostrano che quattro esperti di dati CLIP su ViT-B/16 superano il ViT-L/14 di OpenAI CLIP e OpenCLIP nella classificazione zero-shot di immagini, ma con un costo di addestramento inferiore (<35%). Nel frattempo, MoDE può addestrare tutti gli esperti di dati in modo asincrono e può includere in modo flessibile nuovi esperti di dati. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/MetaCLIP/tree/main/mode.

English

The success of contrastive language-image pretraining (CLIP) relies on the supervision from the pairing between images and captions, which tends to be noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn a system of CLIP data experts via clustering. Each data expert is trained on one data cluster, being less sensitive to false negative noises in other clusters. At inference time, we ensemble their outputs by applying weights determined through the correlation between task metadata and cluster conditions. To estimate the correlation precisely, the samples in one cluster should be semantically similar, but the number of data experts should still be reasonable for training and inference. As such, we consider the ontology in human language and propose to use fine-grained cluster centers to represent each data expert at a coarse-grained level. Experimental studies show that four CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and OpenCLIP on zero-shot image classification but with less (<35\%) training cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly include new data experts. The code is available at https://github.com/facebookresearch/MetaCLIP/tree/main/mode.

MoDE: Esperti di Dati CLIP tramite Clustering

MoDE: CLIP Data Experts via Clustering

Abstract

Support