비전 언어 모델은 질감이나 형태에 편향되어 있으며 우리는 그것들을 조절할 수 있을까요?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
March 14, 2024
저자: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI
초록
비전 언어 모델(VLMs)은 단 몇 년 만에 컴퓨터 비전 모델의 풍경을 급격하게 변화시켰으며, 제로샷 이미지 분류, 이미지 캡션 생성, 시각적 질문 응답 등의 새로운 흥미로운 응용 프로그램을 제공합니다. 순수 비전 모델과는 달리, VLMs는 언어 프롬프팅을 통해 시각적 콘텐츠에 직관적으로 접근할 수 있는 방법을 제공합니다. 이러한 모델의 넓은 적용 가능성은 이러한 모델이 인간 시각과도 일치하는지 여부 - 특히 다중 모달 융합을 통해 인간 유도 시각 편향을 어느 정도 채택하는지, 아니면 순수 비전 모델로부터 그냥 편향을 상속받는지 - 을 묻게 만듭니다. 중요한 시각적 편향 중 하나는 질감 대 모양 편향 또는 지역 정보의 우세성입니다. 본 논문에서는 인기 있는 다양한 VLMs에서 이러한 편향을 연구합니다. 흥미롭게도, VLMs는 종종 비전 인코더보다 모양 편향이 더 강하다는 것을 발견했으며, 이는 다중 모달 모델에서 텍스트를 통해 시각적 편향이 어느 정도 조절된다는 것을 나타냅니다. 텍스트가 실제로 시각적 편향에 영향을 미친다면, 이는 시각적 입력뿐만 아니라 언어를 통해서도 시각적 편향을 조절할 수 있을지도 모른다는 것을 시사하며, 이 가설을 방대한 실험을 통해 확인합니다. 예를 들어, 우리는 프롬프팅만으로 모양 편향을 49%에서 72%로 조절할 수 있습니다. 현재까지, 모든 테스트된 VLMs에 대해 인간의 모양 편향(96%)은 아직 달성되지 않았습니다.
English
Vision language models (VLMs) have drastically changed the computer vision
model landscape in only a few years, opening an exciting array of new
applications from zero-shot image classification, over to image captioning, and
visual question answering. Unlike pure vision models, they offer an intuitive
way to access visual content through language prompting. The wide applicability
of such models encourages us to ask whether they also align with human vision -
specifically, how far they adopt human-induced visual biases through multimodal
fusion, or whether they simply inherit biases from pure vision models. One
important visual bias is the texture vs. shape bias, or the dominance of local
over global information. In this paper, we study this bias in a wide range of
popular VLMs. Interestingly, we find that VLMs are often more shape-biased than
their vision encoders, indicating that visual biases are modulated to some
extent through text in multimodal models. If text does indeed influence visual
biases, this suggests that we may be able to steer visual biases not just
through visual input but also through language: a hypothesis that we confirm
through extensive experiments. For instance, we are able to steer shape bias
from as low as 49% to as high as 72% through prompting alone. For now, the
strong human bias towards shape (96%) remains out of reach for all tested VLMs.Summary
AI-Generated Summary