Являются ли модели языка зрения предвзятыми к текстуре или форме, и можем ли мы их направлять?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?
March 14, 2024
Авторы: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper
cs.AI
Аннотация
Языковые модели видения (VLM) радикально изменили ландшафт моделей компьютерного зрения всего за несколько лет, открывая захватывающий спектр новых приложений от классификации изображений с нулевой разметкой до описания изображений и ответов на визуальные вопросы. В отличие от чисто видовых моделей, они предлагают интуитивный способ доступа к визуальному контенту через языковые подсказки. Широкая применимость таких моделей побуждает нас задаться вопросом, соответствуют ли они также человеческому зрению - конкретно, насколько они принимают визуальные предвзятости, вызванные человеком, через мультимодальное слияние, или просто наследуют предвзятости от чисто видовых моделей. Одной из важных визуальных предвзятостей является предвзятость текстуры по сравнению с формой, или доминирование локальной информации над глобальной. В данной статье мы изучаем эту предвзятость в широком диапазоне популярных VLM. Интересно, что мы обнаруживаем, что VLM часто имеют большую предвзятость к форме, чем их видовые кодировщики, что указывает на то, что визуальные предвзятости в некоторой степени модулируются через текст в мультимодальных моделях. Если текст действительно влияет на визуальные предвзятости, это подтверждает, что мы можем направлять визуальные предвзятости не только через визуальный ввод, но и через язык: гипотезу, которую мы подтверждаем через обширные эксперименты. Например, мы можем направлять предвзятость к форме от 49% до 72% только через подсказки. На данный момент сильная человеческая предвзятость к форме (96%) остается недостижимой для всех протестированных VLM.
English
Vision language models (VLMs) have drastically changed the computer vision
model landscape in only a few years, opening an exciting array of new
applications from zero-shot image classification, over to image captioning, and
visual question answering. Unlike pure vision models, they offer an intuitive
way to access visual content through language prompting. The wide applicability
of such models encourages us to ask whether they also align with human vision -
specifically, how far they adopt human-induced visual biases through multimodal
fusion, or whether they simply inherit biases from pure vision models. One
important visual bias is the texture vs. shape bias, or the dominance of local
over global information. In this paper, we study this bias in a wide range of
popular VLMs. Interestingly, we find that VLMs are often more shape-biased than
their vision encoders, indicating that visual biases are modulated to some
extent through text in multimodal models. If text does indeed influence visual
biases, this suggests that we may be able to steer visual biases not just
through visual input but also through language: a hypothesis that we confirm
through extensive experiments. For instance, we are able to steer shape bias
from as low as 49% to as high as 72% through prompting alone. For now, the
strong human bias towards shape (96%) remains out of reach for all tested VLMs.Summary
AI-Generated Summary