ChatPaper.aiChatPaper

MetaCLIP 2: Ein weltweites Skalierungsrezept

MetaCLIP 2: A Worldwide Scaling Recipe

July 29, 2025
papers.authors: Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu
cs.AI

papers.abstract

Contrastive Language-Image Pretraining (CLIP) ist ein weit verbreitetes Basismodell, das von Zero-Shot-Klassifikation und Retrieval bis hin zu Encodern für multimodale Large Language Models (MLLMs) unterstützt. Obwohl CLIP erfolgreich mit milliardenfachen Bild-Text-Paaren aus der englischsprachigen Welt trainiert wurde, bleibt die Skalierung des CLIP-Trainings auf weltweite Webdaten eine Herausforderung: (1) Es gibt keine Kuratierungsmethode, um Datenpunkte aus der nicht-englischsprachigen Welt zu verarbeiten; (2) die Leistung im Englischen bei bestehenden mehrsprachigen CLIP-Modellen ist schlechter als bei ihrem rein englischsprachigen Gegenstück, ein Phänomen, das als „Fluch der Mehrsprachigkeit“ bekannt ist und in LLMs häufig auftritt. Hier präsentieren wir MetaCLIP 2, das erste Rezept, um CLIP von Grund auf mit weltweiten Web-basierten Bild-Text-Paaren zu trainieren. Um unsere Erkenntnisse zu verallgemeinern, führen wir rigorose Ablationen mit minimalen Änderungen durch, die notwendig sind, um die oben genannten Herausforderungen zu bewältigen, und präsentieren ein Rezept, das gegenseitige Vorteile aus englisch- und nicht-englischsprachigen Daten ermöglicht. Bei der Zero-Shot-Klassifikation auf ImageNet übertrifft MetaCLIP 2 ViT-H/14 sein rein englischsprachiges Gegenstück um 0,8 % und mSigLIP um 0,7 % und setzt überraschenderweise neue State-of-the-Art-Werte ohne systembedingte Störfaktoren (z. B. Übersetzung, spezifische Architekturänderungen) auf mehrsprachigen Benchmarks, wie CVQA mit 57,4 %, Babel-ImageNet mit 50,2 % und XM3600 mit 64,3 % beim Bild-Text-Retrieval.
English
Contrastive Language-Image Pretraining (CLIP) is a popular foundation model, supporting from zero-shot classification, retrieval to encoders for multimodal large language models (MLLMs). Although CLIP is successfully trained on billion-scale image-text pairs from the English world, scaling CLIP's training further to learning from the worldwide web data is still challenging: (1) no curation method is available to handle data points from non-English world; (2) the English performance from existing multilingual CLIP is worse than its English-only counterpart, i.e., "curse of multilinguality" that is common in LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch on worldwide web-scale image-text pairs. To generalize our findings, we conduct rigorous ablations with minimal changes that are necessary to address the above challenges and present a recipe enabling mutual benefits from English and non-English world data. In zero-shot ImageNet classification, MetaCLIP 2 ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%, and surprisingly sets new state-of-the-art without system-level confounding factors (e.g., translation, bespoke architecture changes) on multilingual benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with 64.3% on image-to-text retrieval.
PDF152July 31, 2025