MoDE: Expertos en Datos CLIP mediante Agrupamiento

Resumen

El éxito del preentrenamiento contrastivo de lenguaje-imagen (CLIP) depende de la supervisión proveniente del emparejamiento entre imágenes y descripciones, que tiende a ser ruidoso en datos obtenidos de la web. Presentamos Mezcla de Expertos en Datos (MoDE) y aprendemos un sistema de expertos en datos CLIP mediante clustering. Cada experto en datos se entrena en un clúster de datos, siendo menos sensible a los ruidos de falsos negativos en otros clústeres. En el momento de la inferencia, combinamos sus salidas aplicando pesos determinados a través de la correlación entre los metadatos de la tarea y las condiciones del clúster. Para estimar la correlación con precisión, las muestras en un clúster deben ser semánticamente similares, pero el número de expertos en datos aún debe ser razonable para el entrenamiento y la inferencia. Por ello, consideramos la ontología en el lenguaje humano y proponemos utilizar centros de clústeres de grano fino para representar cada experto en datos a un nivel de grano grueso. Los estudios experimentales muestran que cuatro expertos en datos CLIP en ViT-B/16 superan al ViT-L/14 de OpenAI CLIP y OpenCLIP en la clasificación de imágenes zero-shot, pero con un costo de entrenamiento menor (<35%). Mientras tanto, MoDE puede entrenar a todos los expertos en datos de manera asíncrona y puede incluir de manera flexible nuevos expertos en datos. El código está disponible en https://github.com/facebookresearch/MetaCLIP/tree/main/mode.

English

The success of contrastive language-image pretraining (CLIP) relies on the supervision from the pairing between images and captions, which tends to be noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn a system of CLIP data experts via clustering. Each data expert is trained on one data cluster, being less sensitive to false negative noises in other clusters. At inference time, we ensemble their outputs by applying weights determined through the correlation between task metadata and cluster conditions. To estimate the correlation precisely, the samples in one cluster should be semantically similar, but the number of data experts should still be reasonable for training and inference. As such, we consider the ontology in human language and propose to use fine-grained cluster centers to represent each data expert at a coarse-grained level. Experimental studies show that four CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and OpenCLIP on zero-shot image classification but with less (<35\%) training cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly include new data experts. The code is available at https://github.com/facebookresearch/MetaCLIP/tree/main/mode.

MoDE: Expertos en Datos CLIP mediante Agrupamiento

MoDE: CLIP Data Experts via Clustering

Resumen

Support