EVA-CLIP-18B: Escalonando o CLIP para 18 Bilhões de Parâmetros
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Autores: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Resumo
A ampliação do pré-treinamento contrastivo de linguagem-imagem (CLIP) é crucial para capacitar tanto modelos de visão quanto multimodais. Apresentamos o EVA-CLIP-18B, o maior e mais poderoso modelo CLIP de código aberto até o momento, com 18 bilhões de parâmetros. Com apenas 6 bilhões de amostras de treinamento vistas, o EVA-CLIP-18B alcança uma excepcional precisão zero-shot top-1 de 80,7% em média em 27 benchmarks amplamente reconhecidos de classificação de imagens, superando seu antecessor EVA-CLIP (5 bilhões de parâmetros) e outros modelos CLIP de código aberto por uma grande margem. Notavelmente, observamos uma melhoria consistente de desempenho com o aumento do tamanho do modelo EVA-CLIP, apesar de manter um conjunto de dados de treinamento constante de 2 bilhões de pares imagem-texto do LAION-2B e COYO-700M. Este conjunto de dados está disponível publicamente e é muito menor do que os conjuntos de dados internos (por exemplo, DFN-5B, WebLI-10B) empregados em outros modelos CLIP state-of-the-art. O EVA-CLIP-18B demonstra o potencial da ampliação de modelos visuais fracos para fortes no estilo EVA. Com os pesos do nosso modelo disponibilizados publicamente, esperamos facilitar pesquisas futuras em modelos de base de visão e multimodais.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.