MetaCLIP 2: Una receta de escalabilidad global
MetaCLIP 2: A Worldwide Scaling Recipe
July 29, 2025
Autores: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
cs.AI
Resumen
El Pretrenamiento Contraste Lenguaje-Imagen (CLIP) es un modelo base popular que soporta desde la clasificación de cero disparos, la recuperación hasta los codificadores para modelos de lenguaje multimodal de gran escala (MLLMs). Aunque CLIP se ha entrenado con éxito en pares de imágenes-texto a escala de miles de millones del mundo angloparlante, escalar aún más el entrenamiento de CLIP para aprender de los datos de la web mundial sigue siendo un desafío: (1) no existe un método de curación disponible para manejar puntos de datos del mundo no angloparlante; (2) el rendimiento en inglés de los CLIP multilingües existentes es peor que su contraparte exclusivamente en inglés, es decir, la "maldición de la multilingüidad" que es común en los LLMs. Aquí presentamos MetaCLIP 2, la primera receta para entrenar CLIP desde cero en pares de imágenes-texto a escala de la web mundial. Para generalizar nuestros hallazgos, realizamos ablaciones rigurosas con cambios mínimos necesarios para abordar los desafíos mencionados y presentamos una receta que permite beneficios mutuos de los datos del mundo angloparlante y no angloparlante. En la clasificación de cero disparos en ImageNet, MetaCLIP 2 ViT-H/14 supera a su contraparte exclusivamente en inglés en un 0.8% y a mSigLIP en un 0.7%, y sorprendentemente establece un nuevo estado del arte sin factores de confusión a nivel de sistema (por ejemplo, traducción, cambios de arquitectura personalizados) en benchmarks multilingües, como CVQA con un 57.4%, Babel-ImageNet con un 50.2% y XM3600 con un 64.3% en la recuperación de imagen a texto.
English
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model,
supporting from zero-shot classification, retrieval to encoders for multimodal
large language models (MLLMs). Although CLIP is successfully trained on
billion-scale image-text pairs from the English world, scaling CLIP's training
further to learning from the worldwide web data is still challenging: (1) no
curation method is available to handle data points from non-English world; (2)
the English performance from existing multilingual CLIP is worse than its
English-only counterpart, i.e., "curse of multilinguality" that is common in
LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch
on worldwide web-scale image-text pairs. To generalize our findings, we conduct
rigorous ablations with minimal changes that are necessary to address the above
challenges and present a recipe enabling mutual benefits from English and
non-English world data. In zero-shot ImageNet classification, MetaCLIP 2
ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%,
and surprisingly sets new state-of-the-art without system-level confounding
factors (e.g., translation, bespoke architecture changes) on multilingual
benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with
64.3% on image-to-text retrieval.