EVA-CLIP-18B : Passage de CLIP à 18 milliards de paramètres
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Auteurs: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Résumé
L'augmentation de l'échelle du pré-entraînement contrastif langage-image (CLIP) est essentielle pour renforcer à la fois les modèles de vision et les modèles multimodaux. Nous présentons EVA-CLIP-18B, le plus grand et le plus puissant modèle CLIP open-source à ce jour, avec 18 milliards de paramètres. Avec seulement 6 milliards d'échantillons d'entraînement utilisés, EVA-CLIP-18B atteint une précision top-1 en zero-shot exceptionnelle de 80,7 % en moyenne sur 27 benchmarks largement reconnus en classification d'images, surpassant son prédécesseur EVA-CLIP (5 milliards de paramètres) et d'autres modèles CLIP open-source de manière significative. Fait remarquable, nous observons une amélioration constante des performances avec l'augmentation de la taille du modèle EVA-CLIP, malgré l'utilisation d'un jeu de données d'entraînement constant de 2 milliards de paires image-texte provenant de LAION-2B et COYO-700M. Ce jeu de données est ouvertement accessible et bien plus petit que les jeux de données internes (par exemple, DFN-5B, WebLI-10B) utilisés dans d'autres modèles CLIP de pointe. EVA-CLIP-18B démontre le potentiel de la mise à l'échelle visuelle faible-à-forte de style EVA. Avec la mise à disposition publique des poids de notre modèle, nous espérons faciliter les recherches futures sur les modèles de base en vision et multimodaux.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.