Les modèles de langage vision sont-ils biaisés par la texture ou la forme et pouvons-nous les orienter ?

papers.abstract

Les modèles de vision langagière (VLM) ont radicalement transformé le paysage des modèles de vision par ordinateur en seulement quelques années, ouvrant un éventail passionnant de nouvelles applications allant de la classification d'images sans étiquette à la génération de légendes d'images, en passant par la réponse à des questions visuelles. Contrairement aux modèles de vision pure, ils offrent un moyen intuitif d'accéder au contenu visuel à travers des incitations linguistiques. La grande applicabilité de ces modèles nous pousse à nous demander s'ils sont également en phase avec la vision humaine - en particulier, dans quelle mesure ils adoptent les biais visuels induits par l'humain à travers la fusion multimodale, ou s'ils héritent simplement des biais des modèles de vision pure. Un biais visuel important est le biais texture vs forme, ou la prédominance de l'information locale sur l'information globale. Dans cet article, nous étudions ce biais dans une large gamme de VLM populaires. De manière intéressante, nous constatons que les VLM sont souvent plus biaisés vers la forme que leurs encodeurs de vision, ce qui indique que les biais visuels sont modulés dans une certaine mesure à travers le texte dans les modèles multimodaux. Si le texte influence effectivement les biais visuels, cela suggère que nous pourrions être en mesure de diriger les biais visuels non seulement à travers l'entrée visuelle mais aussi à travers le langage : une hypothèse que nous confirmons à travers des expériences approfondies. Par exemple, nous sommes capables de diriger le biais vers la forme de aussi bas que 49% à aussi haut que 72% uniquement à travers des incitations. Pour l'instant, le fort biais humain en faveur de la forme (96%) reste hors de portée pour tous les VLM testés.

English

Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.

Les modèles de langage vision sont-ils biaisés par la texture ou la forme et pouvons-nous les orienter ?

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

papers.abstract

Support