MetaCLIP 2: Una Ricetta per il Ridimensionamento Globale
MetaCLIP 2: A Worldwide Scaling Recipe
July 29, 2025
Autori: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
cs.AI
Abstract
Il Contrastive Language-Image Pretraining (CLIP) è un modello di base molto diffuso, che supporta attività che vanno dalla classificazione zero-shot e il retrieval fino all'uso come encoder per modelli linguistici multimodali di grandi dimensioni (MLLMs). Sebbene CLIP sia stato addestrato con successo su miliardi di coppie immagine-testo provenienti dal mondo anglofono, scalare ulteriormente l'addestramento di CLIP per apprendere da dati provenienti dal web globale rimane una sfida: (1) non è disponibile un metodo di curatela per gestire i dati provenienti da contesti non anglofoni; (2) le prestazioni in inglese delle versioni multilingue esistenti di CLIP sono inferiori rispetto alla controparte esclusivamente in inglese, un fenomeno noto come "maledizione della multilinguità", comune anche nei modelli linguistici di grandi dimensioni (LLMs). Qui presentiamo MetaCLIP 2, la prima metodologia per addestrare CLIP da zero su coppie immagine-testo di scala web globale. Per generalizzare i nostri risultati, conduciamo rigorose ablazioni con modifiche minime necessarie per affrontare le suddette sfide e presentiamo una ricetta che consente benefici reciproci dai dati provenienti sia dal mondo anglofono che da quello non anglofono. Nella classificazione zero-shot su ImageNet, MetaCLIP 2 ViT-H/14 supera la sua controparte esclusivamente in inglese dello 0,8% e mSigLIP dello 0,7%, e sorprendentemente stabilisce nuovi record di stato dell'arte senza fattori confondenti a livello di sistema (ad esempio, traduzione, modifiche architetturali personalizzate) su benchmark multilingue, come CVQA con il 57,4%, Babel-ImageNet con il 50,2% e XM3600 con il 64,3% nel retrieval immagine-testo.
English
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model,
supporting from zero-shot classification, retrieval to encoders for multimodal
large language models (MLLMs). Although CLIP is successfully trained on
billion-scale image-text pairs from the English world, scaling CLIP's training
further to learning from the worldwide web data is still challenging: (1) no
curation method is available to handle data points from non-English world; (2)
the English performance from existing multilingual CLIP is worse than its
English-only counterpart, i.e., "curse of multilinguality" that is common in
LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch
on worldwide web-scale image-text pairs. To generalize our findings, we conduct
rigorous ablations with minimal changes that are necessary to address the above
challenges and present a recipe enabling mutual benefits from English and
non-English world data. In zero-shot ImageNet classification, MetaCLIP 2
ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%,
and surprisingly sets new state-of-the-art without system-level confounding
factors (e.g., translation, bespoke architecture changes) on multilingual
benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with
64.3% on image-to-text retrieval.