EVA-CLIP-18B: CLIPを180億パラメータにスケーリング
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
著者: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
要旨
コントラスティブ言語-画像事前学習(CLIP)のスケールアップは、視覚モデルとマルチモーダルモデルの両方を強化する上で極めて重要です。本論文では、180億パラメータを有するこれまでで最大かつ最も強力なオープンソースCLIPモデルであるEVA-CLIP-18Bを紹介します。わずか60億の訓練サンプルで学習したEVA-CLIP-18Bは、広く認知されている27の画像分類ベンチマークにおいて平均80.7%のゼロショットTop-1精度を達成し、先行モデルであるEVA-CLIP(50億パラメータ)や他のオープンソースCLIPモデルを大幅に上回りました。注目すべきは、LAION-2BとCOYO-700Mからなる20億の画像-テキストペアという一定の訓練データセットを維持しながらも、EVA-CLIPのモデルサイズスケーリングに伴って一貫した性能向上が観察された点です。このデータセットは公開されており、他の最先端CLIPモデルで使用されている社内データセット(例:DFN-5B、WebLI-10B)よりもはるかに小規模です。EVA-CLIP-18Bは、EVAスタイルの弱い視覚モデルから強い視覚モデルへのスケーリングの可能性を示しています。我々はモデルの重みを公開することで、視覚およびマルチモーダル基盤モデルに関する今後の研究を促進することを期待しています。
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.