EVA-CLIP-18B: Escalando CLIP a 18 Mil Millones de Parámetros
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
February 6, 2024
Autores: Quan Sun, Jinsheng Wang, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Xinlong Wang
cs.AI
Resumen
La ampliación del entrenamiento previo de lenguaje-imagen contrastivo (CLIP) es crucial para potenciar tanto los modelos de visión como los multimodales. Presentamos EVA-CLIP-18B, el modelo CLIP de código abierto más grande y potente hasta la fecha, con 18 mil millones de parámetros. Con solo 6 mil millones de muestras de entrenamiento vistas, EVA-CLIP-18B logra un excepcional 80.7% de precisión top-1 en clasificación de imágenes sin ajuste previo, promediado en 27 benchmarks ampliamente reconocidos, superando por un amplio margen a su predecesor EVA-CLIP (5 mil millones de parámetros) y a otros modelos CLIP de código abierto. Notablemente, observamos una mejora consistente en el rendimiento con el escalado del tamaño del modelo EVA-CLIP, a pesar de mantener un conjunto de entrenamiento constante de 2 mil millones de pares imagen-texto de LAION-2B y COYO-700M. Este conjunto de datos está disponible públicamente y es mucho más pequeño que los conjuntos de datos internos (por ejemplo, DFN-5B, WebLI-10B) utilizados en otros modelos CLIP de última generación. EVA-CLIP-18B demuestra el potencial del escalado de modelos visuales de débil a fuerte al estilo EVA. Al hacer públicos los pesos de nuestro modelo, esperamos facilitar futuras investigaciones en modelos fundamentales de visión y multimodales.
English
Scaling up contrastive language-image pretraining (CLIP) is critical for
empowering both vision and multimodal models. We present EVA-CLIP-18B, the
largest and most powerful open-source CLIP model to date, with 18-billion
parameters. With only 6-billion training samples seen, EVA-CLIP-18B achieves an
exceptional 80.7% zero-shot top-1 accuracy averaged across 27 widely recognized
image classification benchmarks, outperforming its forerunner EVA-CLIP
(5-billion parameters) and other open-source CLIP models by a large margin.
Remarkably, we observe a consistent performance improvement with the model size
scaling of EVA-CLIP, despite maintaining a constant training dataset of
2-billion image-text pairs from LAION-2B and COYO-700M. This dataset is openly
available and much smaller than the in-house datasets (e.g., DFN-5B, WebLI-10B)
employed in other state-of-the-art CLIP models. EVA-CLIP-18B demonstrates the
potential of EVA-style weak-to-strong visual model scaling. With our model
weights made publicly available, we hope to facilitate future research in
vision and multimodal foundation models.