ChatPaper.aiChatPaper

¿Los Modelos de Lenguaje de Visión tienen sesgos hacia la textura o la forma y podemos dirigirlos?

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

March 14, 2024
Autores: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI

Resumen

Los modelos de lenguaje visual (VLMs) han cambiado drásticamente el panorama de modelos de visión por computadora en solo unos pocos años, abriendo una emocionante variedad de nuevas aplicaciones desde la clasificación de imágenes de cero disparos, pasando por la descripción de imágenes, hasta la respuesta a preguntas visuales. A diferencia de los modelos de visión pura, ofrecen una forma intuitiva de acceder al contenido visual a través de la inducción del lenguaje. La amplia aplicabilidad de tales modelos nos anima a preguntarnos si también se alinean con la visión humana, específicamente, hasta qué punto adoptan sesgos visuales inducidos por humanos a través de la fusión multimodal, o si simplemente heredan sesgos de los modelos de visión pura. Un sesgo visual importante es el sesgo textura vs. forma, o la dominancia de la información local sobre la global. En este documento, estudiamos este sesgo en una amplia gama de VLMs populares. Curiosamente, encontramos que los VLMs a menudo tienen más sesgo hacia la forma que sus codificadores de visión, lo que indica que los sesgos visuales se modulan hasta cierto punto a través del texto en modelos multimodales. Si el texto realmente influye en los sesgos visuales, esto sugiere que podríamos dirigir los sesgos visuales no solo a través de la entrada visual, sino también a través del lenguaje: una hipótesis que confirmamos a través de experimentos extensos. Por ejemplo, logramos dirigir el sesgo hacia la forma desde tan solo un 49% hasta un 72% solo a través de la inducción. Por ahora, el fuerte sesgo humano hacia la forma (96%) sigue estando fuera del alcance de todos los VLMs probados.
English
Vision language models (VLMs) have drastically changed the computer vision model landscape in only a few years, opening an exciting array of new applications from zero-shot image classification, over to image captioning, and visual question answering. Unlike pure vision models, they offer an intuitive way to access visual content through language prompting. The wide applicability of such models encourages us to ask whether they also align with human vision - specifically, how far they adopt human-induced visual biases through multimodal fusion, or whether they simply inherit biases from pure vision models. One important visual bias is the texture vs. shape bias, or the dominance of local over global information. In this paper, we study this bias in a wide range of popular VLMs. Interestingly, we find that VLMs are often more shape-biased than their vision encoders, indicating that visual biases are modulated to some extent through text in multimodal models. If text does indeed influence visual biases, this suggests that we may be able to steer visual biases not just through visual input but also through language: a hypothesis that we confirm through extensive experiments. For instance, we are able to steer shape bias from as low as 49% to as high as 72% through prompting alone. For now, the strong human bias towards shape (96%) remains out of reach for all tested VLMs.

Summary

AI-Generated Summary

PDF92January 28, 2025