ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage de représentations visuelles sans langage

Scaling Language-Free Visual Representation Learning

April 1, 2025
Auteurs: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI

Résumé

L'apprentissage visuel auto-supervisé (SSL) obtient actuellement des performances inférieures au pré-entraînement multimodal contrastif texte-image (CLIP) dans des contextes multimodaux tels que la réponse à des questions visuelles (VQA). Cet écart multimodal est souvent attribué à la sémantique introduite par la supervision linguistique, bien que les modèles SSL visuels et CLIP soient souvent entraînés sur des données différentes. Dans ce travail, nous posons la question suivante : "Les approches visuelles auto-supervisées sont-elles à la traîne par rapport à CLIP en raison de l'absence de supervision linguistique, ou des différences dans les données d'entraînement ?" Nous étudions cette question en entraînant à la fois des modèles SSL visuels et CLIP sur les mêmes données MetaCLIP, et en utilisant VQA comme banc d'essai diversifié pour les encodeurs visuels. Dans cette configuration contrôlée, les modèles SSL visuels montrent une meilleure capacité d'échelle que les modèles CLIP en termes de données et de capacité de modèle, et les performances SSL visuelles ne saturent pas même après un passage à l'échelle jusqu'à 7 milliards de paramètres. Par conséquent, nous observons que les méthodes SSL visuelles atteignent des performances comparables à CLIP sur un large éventail de benchmarks VQA et de vision classique. Ces résultats démontrent que le SSL visuel pur peut rivaliser avec le pré-entraînement visuel supervisé par le langage à grande échelle, ouvrant de nouvelles opportunités pour l'apprentissage de représentations centré sur la vision.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive Language-Image Pretraining (CLIP) in multimodal settings such as Visual Question Answering (VQA). This multimodal gap is often attributed to the semantics introduced by language supervision, even though visual SSL and CLIP models are often trained on different data. In this work, we ask the question: "Do visual self-supervised approaches lag behind CLIP due to the lack of language supervision, or differences in the training data?" We study this question by training both visual SSL and CLIP models on the same MetaCLIP data, and leveraging VQA as a diverse testbed for vision encoders. In this controlled setup, visual SSL models scale better than CLIP models in terms of data and model capacity, and visual SSL performance does not saturate even after scaling up to 7B parameters. Consequently, we observe visual SSL methods achieve CLIP-level performance on a wide range of VQA and classic vision benchmarks. These findings demonstrate that pure visual SSL can match language-supervised visual pretraining at scale, opening new opportunities for vision-centric representation learning.

Summary

AI-Generated Summary

PDF294April 2, 2025