EVA-CLIP-18B: Het opschalen van CLIP naar 18 miljard parameters
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Auteurs: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Samenvatting
Het opschalen van contrastief taal-beeld vooraf trainen (CLIP) is cruciaal voor het versterken van zowel visuele als multimodale modellen. Wij presenteren EVA-CLIP-18B, het grootste en krachtigste open-source CLIP-model tot nu toe, met 18 miljard parameters. Met slechts 6 miljard trainingsvoorbeelden behaalt EVA-CLIP-18B een uitzonderlijke zero-shot top-1 nauwkeurigheid van 80,7% gemiddeld over 27 veelgebruikte beeldclassificatiebenchmarks, wat zijn voorganger EVA-CLIP (5 miljard parameters) en andere open-source CLIP-modellen met een grote marge overtreft. Opmerkelijk is dat we een consistente prestatieverbetering waarnemen bij het opschalen van de modelgrootte van EVA-CLIP, ondanks het behouden van een constante trainingsdataset van 2 miljard beeld-tekstparen uit LAION-2B en COYO-700M. Deze dataset is openbaar beschikbaar en aanzienlijk kleiner dan de interne datasets (bijv. DFN-5B, WebLI-10B) die worden gebruikt in andere state-of-the-art CLIP-modellen. EVA-CLIP-18B toont het potentieel van EVA-stijl zwak-naar-sterk visueel modelopschalen. Met onze modelgewichten die openbaar beschikbaar zijn gemaakt, hopen we toekomstig onderzoek in visuele en multimodale foundation-modellen te faciliteren.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.