ChatPaper.aiChatPaper

Skalierung sprachfreier visueller Repräsentationslernverfahren

Scaling Language-Free Visual Representation Learning

April 1, 2025
Autoren: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI

Zusammenfassung

Visuelles Self-Supervised Learning (SSL) schneidet derzeit in multimodalen Settings wie Visual Question Answering (VQA) schlechter ab als Contrastive Language-Image Pretraining (CLIP). Diese multimodale Lücke wird oft auf die durch Sprachsupervision eingeführte Semantik zurückgeführt, obwohl visuelle SSL- und CLIP-Modelle häufig auf unterschiedlichen Daten trainiert werden. In dieser Arbeit stellen wir die Frage: „Hinken visuelle Self-Supervised-Ansätze CLIP hinterher, weil ihnen Sprachsupervision fehlt, oder aufgrund von Unterschieden in den Trainingsdaten?“ Wir untersuchen diese Frage, indem wir sowohl visuelle SSL- als auch CLIP-Modelle auf denselben MetaCLIP-Daten trainieren und VQA als vielfältige Testumgebung für Vision-Encoder nutzen. In diesem kontrollierten Setup skalieren visuelle SSL-Modelle besser als CLIP-Modelle in Bezug auf Daten und Modellkapazität, und die Leistung von visuellem SSL erreicht selbst nach der Skalierung auf 7 Milliarden Parameter keine Sättigung. Folglich beobachten wir, dass visuelle SSL-Methoden CLIP-ähnliche Leistung auf einer breiten Palette von VQA- und klassischen Vision-Benchmarks erreichen. Diese Ergebnisse zeigen, dass rein visuelles SSL bei entsprechender Skalierung sprachsupervidiertes visuelles Pretraining erreichen kann, was neue Möglichkeiten für vision-zentriertes Repräsentationslernen eröffnet.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive Language-Image Pretraining (CLIP) in multimodal settings such as Visual Question Answering (VQA). This multimodal gap is often attributed to the semantics introduced by language supervision, even though visual SSL and CLIP models are often trained on different data. In this work, we ask the question: "Do visual self-supervised approaches lag behind CLIP due to the lack of language supervision, or differences in the training data?" We study this question by training both visual SSL and CLIP models on the same MetaCLIP data, and leveraging VQA as a diverse testbed for vision encoders. In this controlled setup, visual SSL models scale better than CLIP models in terms of data and model capacity, and visual SSL performance does not saturate even after scaling up to 7B parameters. Consequently, we observe visual SSL methods achieve CLIP-level performance on a wide range of VQA and classic vision benchmarks. These findings demonstrate that pure visual SSL can match language-supervised visual pretraining at scale, opening new opportunities for vision-centric representation learning.

Summary

AI-Generated Summary

PDF294April 2, 2025