ChatPaper.aiChatPaper

I Modelli Linguaggio Visione sono Influenzati dalla Texture o dalla Forma e Possiamo Indirizzarli?

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

March 14, 2024
Autori: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI

Abstract

I modelli di linguaggio visivo (VLM) hanno cambiato radicalmente il panorama dei modelli di visione artificiale in soli pochi anni, aprendo una vasta gamma di nuove applicazioni entusiasmanti, dalla classificazione delle immagini a zero shot, fino alla descrizione delle immagini e alla risposta alle domande visive. A differenza dei puri modelli di visione, offrono un modo intuitivo per accedere ai contenuti visivi attraverso l'input di linguaggio. L'ampia applicabilità di tali modelli ci spinge a chiederci se si allineino anche con la visione umana, in particolare quanto adottino i bias visivi indotti dall'uomo attraverso la fusione multimodale, o se ereditino semplicemente i bias dai puri modelli di visione. Un importante bias visivo è il bias texture vs. forma, o la predominanza delle informazioni locali rispetto a quelle globali. In questo articolo, studiamo questo bias in una vasta gamma di popolari VLM. Interessantemente, scopriamo che i VLM sono spesso più orientati alla forma rispetto ai loro encoder di visione, indicando che i bias visivi sono modulati in qualche misura attraverso il testo nei modelli multimodali. Se il testo influisce effettivamente sui bias visivi, ciò suggerisce che potremmo essere in grado di guidare i bias visivi non solo attraverso l'input visivo ma anche attraverso il linguaggio: un'ipotesi che confermiamo attraverso ampi esperimenti. Ad esempio, siamo in grado di guidare il bias verso la forma da un minimo del 49% fino a un massimo del 72% solo attraverso il prompting. Al momento, il forte bias umano verso la forma (96%) rimane fuori dalla portata di tutti i VLM testati.
English
Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.

Summary

AI-Generated Summary

PDF92January 28, 2025