MetaCLIP 2: Uma Receita de Escalonamento Global
MetaCLIP 2: A Worldwide Scaling Recipe
July 29, 2025
Autores: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
cs.AI
Resumo
O Contrastive Language-Image Pretraining (CLIP) é um modelo de base popular, que suporta desde classificação zero-shot, recuperação até codificadores para modelos de linguagem multimodal de grande escala (MLLMs). Embora o CLIP tenha sido treinado com sucesso em pares de imagem-texto em escala bilionária do mundo anglófono, escalar ainda mais o treinamento do CLIP para aprender a partir de dados da web mundial continua desafiador: (1) não há um método de curadoria disponível para lidar com pontos de dados do mundo não anglófono; (2) o desempenho em inglês dos CLIPs multilíngues existentes é inferior ao seu equivalente exclusivamente em inglês, ou seja, a "maldição da multilinguidade", que é comum em LLMs. Aqui, apresentamos o MetaCLIP 2, a primeira receita para treinar o CLIP do zero em pares de imagem-texto em escala mundial da web. Para generalizar nossas descobertas, realizamos ablações rigorosas com mudanças mínimas necessárias para abordar os desafios acima e apresentamos uma receita que permite benefícios mútuos dos dados do mundo anglófono e não anglófono. Na classificação zero-shot do ImageNet, o MetaCLIP 2 ViT-H/14 supera seu equivalente exclusivamente em inglês em 0,8% e o mSigLIP em 0,7%, e surpreendentemente estabelece um novo estado da arte sem fatores de confusão em nível de sistema (por exemplo, tradução, mudanças de arquitetura personalizadas) em benchmarks multilíngues, como CVQA com 57,4%, Babel-ImageNet com 50,2% e XM3600 com 64,3% na recuperação de imagem para texto.
English
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model,
supporting from zero-shot classification, retrieval to encoders for multimodal
large language models (MLLMs). Although CLIP is successfully trained on
billion-scale image-text pairs from the English world, scaling CLIP's training
further to learning from the worldwide web data is still challenging: (1) no
curation method is available to handle data points from non-English world; (2)
the English performance from existing multilingual CLIP is worse than its
English-only counterpart, i.e., "curse of multilinguality" that is common in
LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch
on worldwide web-scale image-text pairs. To generalize our findings, we conduct
rigorous ablations with minimal changes that are necessary to address the above
challenges and present a recipe enabling mutual benefits from English and
non-English world data. In zero-shot ImageNet classification, MetaCLIP 2
ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%,
and surprisingly sets new state-of-the-art without system-level confounding
factors (e.g., translation, bespoke architecture changes) on multilingual
benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with
64.3% on image-to-text retrieval.