EVA-CLIP-18B: Масштабирование CLIP до 18 миллиардов параметров
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Авторы: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Аннотация
Масштабирование контрастного предобучения на основе языковых и визуальных данных (CLIP) имеет решающее значение для повышения эффективности как моделей компьютерного зрения, так и мультимодальных моделей. Мы представляем EVA-CLIP-18B — самую крупную и мощную на сегодняшний день открытую модель CLIP, содержащую 18 миллиардов параметров. Обучившись всего на 6 миллиардах примеров, EVA-CLIP-18B достигает выдающегося показателя в 80,7% точности (top-1) в задачах zero-shot, усреднённого по 27 широко известным бенчмаркам классификации изображений, значительно превосходя свою предшественницу EVA-CLIP (5 миллиардов параметров) и другие открытые модели CLIP. Примечательно, что мы наблюдаем устойчивое улучшение производительности с увеличением масштаба модели EVA-CLIP, несмотря на использование постоянного набора данных для обучения, состоящего из 2 миллиардов пар изображение-текст из LAION-2B и COYO-700M. Этот набор данных открыто доступен и значительно меньше внутренних наборов данных (например, DFN-5B, WebLI-10B), используемых в других современных моделях CLIP. EVA-CLIP-18B демонстрирует потенциал масштабирования визуальных моделей в стиле EVA — от слабых к сильным. Сделав веса нашей модели общедоступными, мы надеемся способствовать дальнейшим исследованиям в области базовых моделей компьютерного зрения и мультимодальных систем.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.