MoDE: Especialistas em Dados CLIP via Agrupamento
MoDE: CLIP Data Experts via Clustering
April 24, 2024
Autores: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu
cs.AI
Resumo
O sucesso do pré-treinamento contrastivo de linguagem-imagem (CLIP) depende da supervisão proveniente do emparelhamento entre imagens e legendas, que tende a ser ruidoso em dados obtidos da web. Apresentamos o Mixture of Data Experts (MoDE) e aprendemos um sistema de especialistas em dados CLIP por meio de agrupamento. Cada especialista em dados é treinado em um cluster de dados, sendo menos sensível a ruídos de falsos negativos em outros clusters. No momento da inferência, combinamos suas saídas aplicando pesos determinados pela correlação entre metadados da tarefa e condições dos clusters. Para estimar a correlação com precisão, as amostras em um cluster devem ser semanticamente semelhantes, mas o número de especialistas em dados ainda deve ser razoável para treinamento e inferência. Assim, consideramos a ontologia na linguagem humana e propomos usar centros de clusters de granularidade fina para representar cada especialista em dados em um nível de granularidade grossa. Estudos experimentais mostram que quatro especialistas em dados CLIP no ViT-B/16 superam o ViT-L/14 do OpenAI CLIP e do OpenCLIP na classificação de imagens zero-shot, mas com um custo de treinamento menor (<35%). Enquanto isso, o MoDE pode treinar todos os especialistas em dados de forma assíncrona e pode incluir novos especialistas em dados de maneira flexível. O código está disponível em https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
English
The success of contrastive language-image pretraining (CLIP) relies on the
supervision from the pairing between images and captions, which tends to be
noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn
a system of CLIP data experts via clustering. Each data expert is trained on
one data cluster, being less sensitive to false negative noises in other
clusters. At inference time, we ensemble their outputs by applying weights
determined through the correlation between task metadata and cluster
conditions. To estimate the correlation precisely, the samples in one cluster
should be semantically similar, but the number of data experts should still be
reasonable for training and inference. As such, we consider the ontology in
human language and propose to use fine-grained cluster centers to represent
each data expert at a coarse-grained level. Experimental studies show that four
CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and
OpenCLIP on zero-shot image classification but with less (<35\%) training
cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly
include new data experts. The code is available at
https://github.com/facebookresearch/MetaCLIP/tree/main/mode.