MetaCLIP 2: Рецепт глобального масштабирования

Аннотация

Контрастное предобучение на языково-визуальных данных (CLIP) является популярной базовой моделью, поддерживающей задачи от классификации с нулевым обучением и поиска до кодировщиков для мультимодальных больших языковых моделей (MLLMs). Хотя CLIP успешно обучается на миллиардах пар изображений и текстов из англоязычного мира, масштабирование обучения CLIP для работы с данными из всемирной сети остается сложной задачей: (1) отсутствуют методы курирования для обработки данных из неанглоязычного мира; (2) производительность существующих многоязычных версий CLIP на английском языке хуже, чем у их англоязычных аналогов, что является проявлением "проклятия многоязычия", характерного для больших языковых моделей (LLMs). В данной работе мы представляем MetaCLIP 2 — первый подход к обучению CLIP с нуля на данных масштаба всемирной сети. Чтобы обобщить наши результаты, мы проводим строгие эксперименты с минимальными изменениями, необходимыми для решения указанных проблем, и представляем метод, позволяющий извлекать взаимную пользу из данных англоязычного и неанглоязычного мира. В задаче классификации ImageNet с нулевым обучением MetaCLIP 2 ViT-H/14 превосходит свой англоязычный аналог на 0,8% и mSigLIP на 0,7%, а также устанавливает новый рекорд без системных факторов, таких как перевод или специальные архитектурные изменения, на многоязычных бенчмарках, включая CVQA с 57,4%, Babel-ImageNet с 50,2% и XM3600 с 64,3% в задаче поиска изображений по тексту.

English

Contrastive Language-Image Pretraining (CLIP) is a popular foundation model, supporting from zero-shot classification, retrieval to encoders for multimodal large language models (MLLMs). Although CLIP is successfully trained on billion-scale image-text pairs from the English world, scaling CLIP's training further to learning from the worldwide web data is still challenging: (1) no curation method is available to handle data points from non-English world; (2) the English performance from existing multilingual CLIP is worse than its English-only counterpart, i.e., "curse of multilinguality" that is common in LLMs. Here, we present MetaCLIP 2, the first recipe training CLIP from scratch on worldwide web-scale image-text pairs. To generalize our findings, we conduct rigorous ablations with minimal changes that are necessary to address the above challenges and present a recipe enabling mutual benefits from English and non-English world data. In zero-shot ImageNet classification, MetaCLIP 2 ViT-H/14 surpasses its English-only counterpart by 0.8% and mSigLIP by 0.7%, and surprisingly sets new state-of-the-art without system-level confounding factors (e.g., translation, bespoke architecture changes) on multilingual benchmarks, such as CVQA with 57.4%, Babel-ImageNet with 50.2% and XM3600 with 64.3% on image-to-text retrieval.

MetaCLIP 2: Рецепт глобального масштабирования

MetaCLIP 2: A Worldwide Scaling Recipe

Аннотация

Support