ChatPaper.aiChatPaper

언어 없는 시각 표현 학습의 확장

Scaling Language-Free Visual Representation Learning

April 1, 2025
저자: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
cs.AI

초록

시각적 자기 지도 학습(Visual Self-Supervised Learning, SSL)은 현재 시각 질의 응답(Visual Question Answering, VQA)과 같은 다중 모달 설정에서 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pretraining, CLIP)에 비해 성능이 뒤처지고 있습니다. 이러한 다중 모달 간의 격차는 종종 언어 지도 학습에 의해 도입된 의미론적 특성으로 인한 것으로 여겨지지만, 시각적 SSL과 CLIP 모델은 서로 다른 데이터로 학습되는 경우가 많습니다. 본 연구에서는 다음과 같은 질문을 던집니다: "시각적 자기 지도 학습 접근법이 CLIP에 뒤처지는 이유는 언어 지도 학습의 부재 때문인가, 아니면 학습 데이터의 차이 때문인가?" 이 질문을 탐구하기 위해, 우리는 동일한 MetaCLIP 데이터로 시각적 SSL과 CLIP 모델을 학습시키고, VQA를 시각 인코더의 다양한 테스트베드로 활용합니다. 이 통제된 설정에서, 시각적 SSL 모델은 데이터와 모델 용량 측면에서 CLIP 모델보다 더 나은 확장성을 보이며, 심지어 70억 개의 파라미터로 확장한 후에도 성능이 포화되지 않습니다. 결과적으로, 우리는 시각적 SSL 방법이 다양한 VQA 및 고전적인 시각 벤치마크에서 CLIP 수준의 성능을 달성하는 것을 관찰합니다. 이러한 발견들은 순수 시각적 SSL이 대규모에서 언어 지도 시각 사전 학습과 동등한 성능을 낼 수 있음을 보여주며, 시각 중심 표현 학습을 위한 새로운 기회를 열어줍니다.
English
Visual Self-Supervised Learning (SSL) currently underperforms Contrastive Language-Image Pretraining (CLIP) in multimodal settings such as Visual Question Answering (VQA). This multimodal gap is often attributed to the semantics introduced by language supervision, even though visual SSL and CLIP models are often trained on different data. In this work, we ask the question: "Do visual self-supervised approaches lag behind CLIP due to the lack of language supervision, or differences in the training data?" We study this question by training both visual SSL and CLIP models on the same MetaCLIP data, and leveraging VQA as a diverse testbed for vision encoders. In this controlled setup, visual SSL models scale better than CLIP models in terms of data and model capacity, and visual SSL performance does not saturate even after scaling up to 7B parameters. Consequently, we observe visual SSL methods achieve CLIP-level performance on a wide range of VQA and classic vision benchmarks. These findings demonstrate that pure visual SSL can match language-supervised visual pretraining at scale, opening new opportunities for vision-centric representation learning.

Summary

AI-Generated Summary

PDF294April 2, 2025