Escalando el Aprendizaje de Representaciones Visuales sin Lenguaje
Scaling Language-Free Visual Representation Learning
April 1, 2025
Autores: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI
Resumen
El aprendizaje visual autosupervisado (SSL, por sus siglas en inglés) actualmente tiene un rendimiento inferior al preentrenamiento multimodal de contraste entre lenguaje e imagen (CLIP) en entornos multimodales como la respuesta visual a preguntas (VQA). Esta brecha multimodal se atribuye frecuentemente a la semántica introducida por la supervisión del lenguaje, a pesar de que los modelos de SSL visual y CLIP suelen entrenarse con datos diferentes. En este trabajo, nos planteamos la siguiente pregunta: "¿Los enfoques visuales autosupervisados se quedan atrás respecto a CLIP debido a la falta de supervisión del lenguaje o a diferencias en los datos de entrenamiento?" Estudiamos esta cuestión entrenando tanto modelos de SSL visual como de CLIP con los mismos datos de MetaCLIP, y utilizando VQA como un banco de pruebas diverso para codificadores visuales. En este entorno controlado, los modelos de SSL visual escalan mejor que los modelos de CLIP en términos de datos y capacidad del modelo, y el rendimiento de SSL visual no se satura incluso después de escalar hasta 7 mil millones de parámetros. Como resultado, observamos que los métodos de SSL visual alcanzan un rendimiento comparable al de CLIP en una amplia gama de benchmarks de VQA y visión clásica. Estos hallazgos demuestran que el SSL visual puro puede igualar al preentrenamiento visual supervisado por lenguaje a gran escala, abriendo nuevas oportunidades para el aprendizaje de representaciones centrado en la visión.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive
Language-Image Pretraining (CLIP) in multimodal settings such as Visual
Question Answering (VQA). This multimodal gap is often attributed to the
semantics introduced by language supervision, even though visual SSL and CLIP
models are often trained on different data. In this work, we ask the question:
"Do visual self-supervised approaches lag behind CLIP due to the lack of
language supervision, or differences in the training data?" We study this
question by training both visual SSL and CLIP models on the same MetaCLIP data,
and leveraging VQA as a diverse testbed for vision encoders. In this controlled
setup, visual SSL models scale better than CLIP models in terms of data and
model capacity, and visual SSL performance does not saturate even after scaling
up to 7B parameters. Consequently, we observe visual SSL methods achieve
CLIP-level performance on a wide range of VQA and classic vision benchmarks.
These findings demonstrate that pure visual SSL can match language-supervised
visual pretraining at scale, opening new opportunities for vision-centric
representation learning.Summary
AI-Generated Summary