ChatPaper.aiChatPaper

이미지 캡셔너 역시 확장 가능한 시각 학습자입니다.

Image Captioners Are Scalable Vision Learners Too

June 13, 2023
저자: Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer
cs.AI

초록

웹에서 수집된 이미지-텍스트 쌍에 대한 대조적 사전 학습은 특히 대규모 다중모달 모델의 맥락에서 시각 백본을 위한 가장 널리 사용되는 대규모 사전 학습 전략 중 하나입니다. 동시에, 이러한 유형의 데이터에 대한 이미지 캡셔닝은 일반적으로 열등한 사전 학습 전략으로 간주됩니다. 본 논문에서는 이러한 두 가지 사전 학습 전략을 공정하게 비교하며, 학습 데이터, 컴퓨팅 자원, 모델 용량을 신중하게 일치시켰습니다. 표준 인코더-디코더 트랜스포머를 사용하여, 캡셔닝만으로도 놀라울 정도로 효과적임을 발견했습니다: 분류 작업에서 캡셔닝은 대조적 사전 학습 인코더와 경쟁력 있는 시각 인코더를 생성하며, 시각 및 언어 작업에서는 이를 능가했습니다. 또한 모델 아키텍처와 규모, 그리고 사전 학습 데이터가 표현 품질에 미치는 영향을 분석한 결과, 캡셔닝은 이러한 축에서 동일하거나 더 나은 확장성을 보였습니다. 전반적으로 우리의 결과는 단순한 이미지 캡셔닝이 이전에 생각했던 것보다 더 강력한 사전 학습 전략임을 보여줍니다.
English
Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.
PDF110December 15, 2024