Les modèles de langage vision sont-ils biaisés par la texture ou la forme et pouvons-nous les orienter ?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
March 14, 2024
Auteurs: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI
Résumé
Les modèles de vision langagière (VLM) ont radicalement transformé le paysage des modèles de vision par ordinateur en seulement quelques années, ouvrant un éventail passionnant de nouvelles applications allant de la classification d'images sans étiquette à la génération de légendes d'images, en passant par la réponse à des questions visuelles. Contrairement aux modèles de vision pure, ils offrent un moyen intuitif d'accéder au contenu visuel à travers des incitations linguistiques. La grande applicabilité de ces modèles nous pousse à nous demander s'ils sont également en phase avec la vision humaine - en particulier, dans quelle mesure ils adoptent les biais visuels induits par l'humain à travers la fusion multimodale, ou s'ils héritent simplement des biais des modèles de vision pure. Un biais visuel important est le biais texture vs forme, ou la prédominance de l'information locale sur l'information globale. Dans cet article, nous étudions ce biais dans une large gamme de VLM populaires. De manière intéressante, nous constatons que les VLM sont souvent plus biaisés vers la forme que leurs encodeurs de vision, ce qui indique que les biais visuels sont modulés dans une certaine mesure à travers le texte dans les modèles multimodaux. Si le texte influence effectivement les biais visuels, cela suggère que nous pourrions être en mesure de diriger les biais visuels non seulement à travers l'entrée visuelle mais aussi à travers le langage : une hypothèse que nous confirmons à travers des expériences approfondies. Par exemple, nous sommes capables de diriger le biais vers la forme de aussi bas que 49% à aussi haut que 72% uniquement à travers des incitations. Pour l'instant, le fort biais humain en faveur de la forme (96%) reste hors de portée pour tous les VLM testés.
English
Vision language models (VLMs) have drastically changed the computer vision
model landscape in only a few years, opening an exciting array of new
applications from zero-shot image classification, over to image captioning, and
visual question answering. Unlike pure vision models, they offer an intuitive
way to access visual content through language prompting. The wide applicability
of such models encourages us to ask whether they also align with human vision -
specifically, how far they adopt human-induced visual biases through multimodal
fusion, or whether they simply inherit biases from pure vision models. One
important visual bias is the texture vs. shape bias, or the dominance of local
over global information. In this paper, we study this bias in a wide range of
popular VLMs. Interestingly, we find that VLMs are often more shape-biased than
their vision encoders, indicating that visual biases are modulated to some
extent through text in multimodal models. If text does indeed influence visual
biases, this suggests that we may be able to steer visual biases not just
through visual input but also through language: a hypothesis that we confirm
through extensive experiments. For instance, we are able to steer shape bias
from as low as 49% to as high as 72% through prompting alone. For now, the
strong human bias towards shape (96%) remains out of reach for all tested VLMs.Summary
AI-Generated Summary