Масштабирование обучения визуальным представлениям без использования языка
Scaling Language-Free Visual Representation Learning
April 1, 2025
Авторы: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI
Аннотация
Визуальное самообучение (SSL) в настоящее время уступает контрастивному предобучению на основе языка и изображений (CLIP) в мультимодальных задачах, таких как визуальное ответы на вопросы (VQA). Этот мультимодальный разрыв часто объясняется семантикой, вносимой языковым контролем, хотя визуальные SSL и CLIP модели часто обучаются на разных данных. В данной работе мы задаемся вопросом: "Отстают ли визуальные методы самообучения от CLIP из-за отсутствия языкового контроля или различий в обучающих данных?" Мы исследуем этот вопрос, обучая как визуальные SSL, так и CLIP модели на одних и тех же данных MetaCLIP, и используя VQA как разнообразный тестовый стенд для визуальных кодировщиков. В этой контролируемой настройке визуальные SSL модели масштабируются лучше, чем CLIP модели, с точки зрения объема данных и емкости модели, и производительность визуального SSL не насыщается даже после масштабирования до 7 миллиардов параметров. В результате мы наблюдаем, что визуальные SSL методы достигают уровня производительности CLIP на широком спектре задач VQA и классических визуальных тестов. Эти результаты демонстрируют, что чисто визуальное SSL может соответствовать языково-контролируемому визуальному предобучению на больших масштабах, открывая новые возможности для обучения представлений, ориентированных на визуальные данные.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive
Language-Image Pretraining (CLIP) in multimodal settings such as Visual
Question Answering (VQA). This multimodal gap is often attributed to the
semantics introduced by language supervision, even though visual SSL and CLIP
models are often trained on different data. In this work, we ask the question:
"Do visual self-supervised approaches lag behind CLIP due to the lack of
language supervision, or differences in the training data?" We study this
question by training both visual SSL and CLIP models on the same MetaCLIP data,
and leveraging VQA as a diverse testbed for vision encoders. In this controlled
setup, visual SSL models scale better than CLIP models in terms of data and
model capacity, and visual SSL performance does not saturate even after scaling
up to 7B parameters. Consequently, we observe visual SSL methods achieve
CLIP-level performance on a wide range of VQA and classic vision benchmarks.
These findings demonstrate that pure visual SSL can match language-supervised
visual pretraining at scale, opening new opportunities for vision-centric
representation learning.Summary
AI-Generated Summary