MetaCLIP 2: グローバルスケーリングのレシピ
MetaCLIP 2: A Worldwide Scaling Recipe
July 29, 2025
著者: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
cs.AI
要旨
コントラスティブ言語画像事前学習(CLIP)は、ゼロショット分類、検索、多モーダル大規模言語モデル(MLLM)のエンコーダーまでをサポートする人気の基盤モデルである。CLIPは英語圏の数十億規模の画像-テキストペアで成功裏に学習されているが、全世界のウェブデータからの学習にCLIPのトレーニングをさらに拡張することは依然として課題である:(1)非英語圏のデータポイントを処理するためのキュレーション方法が存在しない;(2)既存の多言語CLIPの英語性能は、英語のみのモデルよりも劣る、すなわち、大規模言語モデル(LLM)で一般的な「多言語性の呪い」が存在する。本論文では、全世界のウェブ規模の画像-テキストペアからCLIPをゼロから学習する最初のレシピであるMetaCLIP 2を提案する。我々の知見を一般化するために、上記の課題に対処するために必要な最小限の変更を加えた厳密なアブレーション実験を実施し、英語圏と非英語圏のデータから相互に利益を得ることを可能にするレシピを提示する。ゼロショットImageNet分類において、MetaCLIP 2 ViT-H/14は英語のみのモデルを0.8%、mSigLIPを0.7%上回り、驚くべきことに、翻訳や特別なアーキテクチャ変更などのシステムレベルの交絡因子なしに、CVQAで57.4%、Babel-ImageNetで50.2%、XM3600で64.3%の画像-テキスト検索において、多言語ベンチマークで新たな最先端を達成した。
English
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model,
supporting from zero-shot classification, retrieval to encoders for multimodal
large language models (MLLMs). Although CLIP is successfully trained on
billion-scale image-text pairs from the English world, scaling CLIP's training
further to learning from the worldwide web data is still challenging: (1) no
curation method is available to handle data points from non-English world; (2)
the English performance from existing multilingual CLIP is worse than its
English-only counterpart, i.e., "curse of multilinguality" that is common in
LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch
on worldwide web-scale image-text pairs. To generalize our findings, we conduct
rigorous ablations with minimal changes that are necessary to address the above
challenges and present a recipe enabling mutual benefits from English and
non-English world data. In zero-shot ImageNet classification, MetaCLIP 2
ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%,
and surprisingly sets new state-of-the-art without system-level confounding
factors (e.g., translation, bespoke architecture changes) on multilingual
benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with
64.3% on image-to-text retrieval.