EVA-CLIP-18B: Skalierung von CLIP auf 18 Milliarden Parameter
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Autoren: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Zusammenfassung
Die Skalierung des kontrastiven Sprach-Bild-Pretrainings (CLIP) ist entscheidend, um sowohl Vision- als auch multimodale Modelle zu stärken. Wir präsentieren EVA-CLIP-18B, das bisher größte und leistungsstärkste Open-Source-CLIP-Modell mit 18 Milliarden Parametern. Mit nur 6 Milliarden Trainingsbeispielen erreicht EVA-CLIP-18B eine außergewöhnliche Zero-Shot-Top-1-Genauigkeit von 80,7 % im Durchschnitt über 27 weit anerkannte Bildklassifizierungs-Benchmarks und übertrifft damit seinen Vorgänger EVA-CLIP (5 Milliarden Parameter) und andere Open-Source-CLIP-Modelle deutlich. Bemerkenswerterweise beobachten wir eine konsistente Leistungssteigerung mit der Skalierung der Modellgröße von EVA-CLIP, obwohl ein konstanter Trainingsdatensatz von 2 Milliarden Bild-Text-Paaren aus LAION-2B und COYO-700M beibehalten wird. Dieser Datensatz ist öffentlich verfügbar und deutlich kleiner als die internen Datensätze (z. B. DFN-5B, WebLI-10B), die in anderen state-of-the-art CLIP-Modellen verwendet werden. EVA-CLIP-18B demonstriert das Potenzial der EVA-artigen schwachen bis starken Skalierung von visuellen Modellen. Mit der öffentlichen Bereitstellung unserer Modellgewichte hoffen wir, zukünftige Forschung in Vision- und multimodalen Foundation-Modellen zu fördern.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.