COLA: 속성으로 지역화된 객체를 구성하기 위해 시각-언어 모델을 어떻게 적응시킬까?
COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?
May 5, 2023
저자: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI
초록
구성적 추론은 인간 시각 지능의 특징적인 능력이지만, 대규모 시각-언어 모델들은 그 규모에도 불구하고 객체와 속성을 결합하여 간단한 구성을 표현하는 데 어려움을 겪습니다. 이러한 구성적 능력의 부족을 측정하기 위해, 우리는 Cola라는 텍스트-이미지 검색 벤치마크를 설계했습니다. Cola는 속성으로 지역화된 객체를 구성(Compose Objects Localized with Attributes)하는 데 사용됩니다. Cola를 테스트베드로 활용하여, 우리는 사전 훈련된 시각-언어 모델이 여러 객체에 부착된 여러 속성에 대해 구성적으로 추론할 수 있도록 모델 설계를 탐구합니다. 우리는 2개의 주요 시각-언어 모델에 대해 6가지 미세 조정 전략을 탐구하며, 3개의 미세 조정 데이터셋과 2개의 테스트 벤치마크(Cola와 CREPE)를 사용합니다. 놀랍게도, 우리의 최적 미세 조정 전략은 사전 훈련 중 이미지와 언어를 분리적으로 인코딩하는 151M 파라미터의 CLIP 모델을, 사전 훈련 중 다중 모달 변환기 인코더를 사용하여 시각과 언어 양쪽 모달리티에 주의를 기울이는 241M 파라미터의 FLAVA 모델과 동등한 성능으로 향상시킵니다. 이 최적의 미세 조정 전략은 사전 훈련된 모델이 생성한 이미지와 언어 특징을 공동으로 주의하는 경량 다중 모달 어댑터입니다. 우리는 이 전략이 프롬프트/미세 조정이나 유사한 수의 단일 모달 레이어를 조정하는 일반적인 전략보다 더 효과적임을 보여줍니다.
English
Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.