Escalonamento de Aprendizado de Representação Visual sem Linguagem
Scaling Language-Free Visual Representation Learning
April 1, 2025
Autores: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI
Resumo
O Aprendizado Visual Autossupervisionado (SSL, na sigla em inglês) atualmente tem desempenho inferior ao Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP, na sigla em inglês) em cenários multimodais, como Resposta a Perguntas Visuais (VQA, na sigla em inglês). Essa lacuna multimodal é frequentemente atribuída à semântica introduzida pela supervisão de linguagem, embora os modelos de SSL visual e CLIP sejam frequentemente treinados em dados diferentes. Neste trabalho, questionamos: "As abordagens visuais autossupervisionadas ficam atrás do CLIP devido à falta de supervisão de linguagem ou às diferenças nos dados de treinamento?" Investigamos essa questão treinando tanto modelos de SSL visual quanto CLIP nos mesmos dados do MetaCLIP e utilizando o VQA como um ambiente diversificado para testar codificadores visuais. Nessa configuração controlada, os modelos de SSL visual escalam melhor do que os modelos CLIP em termos de dados e capacidade do modelo, e o desempenho do SSL visual não satura mesmo após escalar para 7 bilhões de parâmetros. Consequentemente, observamos que métodos de SSL visual alcançam desempenho equivalente ao CLIP em uma ampla gama de benchmarks de VQA e visão clássica. Esses resultados demonstram que o SSL visual puro pode igualar o pré-treinamento visual supervisionado por linguagem em escala, abrindo novas oportunidades para o aprendizado de representações centradas em visão.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive
Language-Image Pretraining (CLIP) in multimodal settings such as Visual
Question Answering (VQA). This multimodal gap is often attributed to the
semantics introduced by language supervision, even though visual SSL and CLIP
models are often trained on different data. In this work, we ask the question:
"Do visual self-supervised approaches lag behind CLIP due to the lack of
language supervision, or differences in the training data?" We study this
question by training both visual SSL and CLIP models on the same MetaCLIP data,
and leveraging VQA as a diverse testbed for vision encoders. In this controlled
setup, visual SSL models scale better than CLIP models in terms of data and
model capacity, and visual SSL performance does not saturate even after scaling
up to 7B parameters. Consequently, we observe visual SSL methods achieve
CLIP-level performance on a wide range of VQA and classic vision benchmarks.
These findings demonstrate that pure visual SSL can match language-supervised
visual pretraining at scale, opening new opportunities for vision-centric
representation learning.Summary
AI-Generated Summary