Os Modelos de Linguagem de Visão são tendenciosos em relação à textura ou forma e podemos direcioná-los?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
March 14, 2024
Autores: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI
Resumo
Os modelos de linguagem visual (VLMs) mudaram drasticamente o cenário dos modelos de visão computacional em apenas alguns anos, abrindo uma emocionante gama de novas aplicações, desde classificação de imagens de zero-shot, passando por legendagem de imagens, até responder a perguntas visuais. Ao contrário dos modelos de visão pura, eles oferecem uma maneira intuitiva de acessar conteúdo visual por meio de estímulos de linguagem. A ampla aplicabilidade desses modelos nos encoraja a questionar se eles também estão alinhados com a visão humana - especificamente, até que ponto adotam vieses visuais induzidos pelo ser humano por meio da fusão multimodal, ou se simplesmente herdam vieses dos modelos de visão pura. Um viés visual importante é o viés de textura versus forma, ou a predominância de informações locais sobre globais. Neste artigo, estudamos esse viés em uma ampla gama de VLMs populares. Curiosamente, descobrimos que os VLMs frequentemente têm mais viés para forma do que seus codificadores de visão, indicando que os vieses visuais são modulados em certa medida por meio de texto em modelos multimodais. Se o texto de fato influencia os vieses visuais, isso sugere que podemos direcionar os vieses visuais não apenas por meio de entradas visuais, mas também por meio da linguagem: uma hipótese que confirmamos por meio de experimentos extensivos. Por exemplo, somos capazes de direcionar o viés para forma de tão baixo quanto 49% para tão alto quanto 72% apenas por meio de estímulos. Por enquanto, o forte viés humano para forma (96%) permanece fora do alcance de todos os VLMs testados.
English
Vision language models (VLMs) have drastically changed the computer vision
model landscape in only a few years, opening an exciting array of new
applications from zero-shot image classification, over to image captioning, and
visual question answering. Unlike pure vision models, they offer an intuitive
way to access visual content through language prompting. The wide applicability
of such models encourages us to ask whether they also align with human vision -
specifically, how far they adopt human-induced visual biases through multimodal
fusion, or whether they simply inherit biases from pure vision models. One
important visual bias is the texture vs. shape bias, or the dominance of local
over global information. In this paper, we study this bias in a wide range of
popular VLMs. Interestingly, we find that VLMs are often more shape-biased than
their vision encoders, indicating that visual biases are modulated to some
extent through text in multimodal models. If text does indeed influence visual
biases, this suggests that we may be able to steer visual biases not just
through visual input but also through language: a hypothesis that we confirm
through extensive experiments. For instance, we are able to steer shape bias
from as low as 49% to as high as 72% through prompting alone. For now, the
strong human bias towards shape (96%) remains out of reach for all tested VLMs.Summary
AI-Generated Summary