Schalingsvrije visuele representatieleer voor taal
Scaling Language-Free Visual Representation Learning
April 1, 2025
Auteurs: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI
Samenvatting
Visuele zelf-supervisie (Visual Self-Supervised Learning, SSL) presteert momenteel minder goed dan Contrastive Language-Image Pretraining (CLIP) in multimodale settings zoals Visual Question Answering (VQA). Deze multimodale kloof wordt vaak toegeschreven aan de semantiek die wordt geïntroduceerd door taalsupervisie, ook al worden visuele SSL- en CLIP-modellen vaak getraind op verschillende data. In dit werk stellen we de vraag: "Lopen visuele zelf-supervisiebenaderingen achter op CLIP vanwege het ontbreken van taalsupervisie, of vanwege verschillen in de trainingsdata?" We onderzoeken deze vraag door zowel visuele SSL- als CLIP-modellen te trainen op dezelfde MetaCLIP-data, en VQA te gebruiken als een divers testbed voor visuele encoders. In deze gecontroleerde opzet schalen visuele SSL-modellen beter dan CLIP-modellen wat betreft data en modelcapaciteit, en verzadigt de prestaties van visuele SSL niet, zelfs niet na opschaling tot 7B parameters. Als gevolg hiervan observeren we dat visuele SSL-methoden CLIP-niveau prestaties bereiken op een breed scala aan VQA- en klassieke visuele benchmarks. Deze bevindingen tonen aan dat pure visuele SSL op grote schaal kan concurreren met visuele voorpretraining met taalsupervisie, wat nieuwe mogelijkheden opent voor visie-gerichte representatielearning.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive
Language-Image Pretraining (CLIP) in multimodal settings such as Visual
Question Answering (VQA). This multimodal gap is often attributed to the
semantics introduced by language supervision, even though visual SSL and CLIP
models are often trained on different data. In this work, we ask the question:
"Do visual self-supervised approaches lag behind CLIP due to the lack of
language supervision, or differences in the training data?" We study this
question by training both visual SSL and CLIP models on the same MetaCLIP data,
and leveraging VQA as a diverse testbed for vision encoders. In this controlled
setup, visual SSL models scale better than CLIP models in terms of data and
model capacity, and visual SSL performance does not saturate even after scaling
up to 7B parameters. Consequently, we observe visual SSL methods achieve
CLIP-level performance on a wide range of VQA and classic vision benchmarks.
These findings demonstrate that pure visual SSL can match language-supervised
visual pretraining at scale, opening new opportunities for vision-centric
representation learning.Summary
AI-Generated Summary