ChatPaper.aiChatPaper

EVA-CLIP-18B: CLIP을 180억 개의 파라미터로 확장

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

February 6, 2024
저자: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI

초록

대조적 언어-이미지 사전학습(CLIP)의 규모 확장은 시각 및 다중모달 모델의 성능 강화에 있어 매우 중요합니다. 본 연구에서는 180억 개의 파라미터를 갖춘, 현재까지 가장 크고 강력한 오픈소스 CLIP 모델인 EVA-CLIP-18B를 소개합니다. 단 60억 개의 학습 샘플만으로도 EVA-CLIP-18B는 27개의 널리 알려진 이미지 분류 벤치마크에서 평균 80.7%의 우수한 제로샷 Top-1 정확도를 달성하며, 이전 버전인 EVA-CLIP(50억 파라미터) 및 기타 오픈소스 CLIP 모델을 큰 차이로 앞섭니다. 특히, LAION-2B와 COYO-700M에서 추출한 20억 개의 이미지-텍스트 쌍으로 구성된 고정된 학습 데이터셋을 유지하면서도 EVA-CLIP의 모델 크기 확장에 따른 지속적인 성능 향상을 관찰했습니다. 이 데이터셋은 공개적으로 이용 가능하며, 다른 최첨단 CLIP 모델에서 사용된 내부 데이터셋(예: DFN-5B, WebLI-10B)보다 훨씬 작습니다. EVA-CLIP-18B는 EVA 스타일의 약한 시각 모델에서 강력한 시각 모델로의 확장 가능성을 입증합니다. 본 모델의 가중치를 공개함으로써, 시각 및 다중모달 기반 모델에 대한 향후 연구를 촉진하고자 합니다.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for empowering both vision and multimodal models. We present EVA-CLIP-18B, the largest and most powerful open-source CLIP model to date, with 18-billion parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized image classification benchmarks, outperforming its forerunner EVA-CLIP (5-billion parameters) and other open-source CLIP models by a large margin. Remarkably, we observe a consistent performance improvement with the model size scaling of EVA-CLIP, despite maintaining a constant training dataset of 2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B) employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the potential of EVA-style weak-to-strong visual model scaling. With our model weights made publicly available, we hope to facilitate future research in vision and multimodal foundation models.
PDF292December 15, 2024