EVA-CLIP-18B: Scalare CLIP a 18 miliardi di parametri
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Autori: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Abstract
Il potenziamento del preaddestramento contrastivo lingua-immagine (CLIP) è fondamentale per potenziare sia i modelli visivi che quelli multimodali. Presentiamo EVA-CLIP-18B, il più grande e potente modello CLIP open-source fino ad oggi, con 18 miliardi di parametri. Con soli 6 miliardi di campioni di addestramento visti, EVA-CLIP-18B raggiunge un eccezionale 80,7% di accuratezza top-1 zero-shot mediata su 27 benchmark ampiamente riconosciuti per la classificazione di immagini, superando di gran lunga il suo predecessore EVA-CLIP (5 miliardi di parametri) e altri modelli CLIP open-source. In modo notevole, osserviamo un miglioramento costante delle prestazioni con il ridimensionamento della dimensione del modello di EVA-CLIP, nonostante il mantenimento di un dataset di addestramento costante di 2 miliardi di coppie immagine-testo provenienti da LAION-2B e COYO-700M. Questo dataset è disponibile pubblicamente e molto più piccolo rispetto ai dataset interni (ad esempio, DFN-5B, WebLI-10B) utilizzati in altri modelli CLIP all'avanguardia. EVA-CLIP-18B dimostra il potenziale del ridimensionamento visivo da debole a forte in stile EVA. Con i pesi del nostro modello resi pubblicamente disponibili, speriamo di facilitare la ricerca futura sui modelli di base visivi e multimodali.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.