Pixels Versus Priores: Controlando Priores de Conhecimento em Modelos de Visão-Linguagem por meio de Contrafatos Visuais
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
May 21, 2025
Autores: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) apresentam bom desempenho em tarefas como resposta a perguntas visuais, mas ainda não está claro se seu raciocínio depende mais de conhecimento prévio memorizado ou das informações visuais presentes na imagem de entrada. Para investigar isso, introduzimos o Visual CounterFact, um novo conjunto de dados de contra-factuais visualmente realistas que colocam conhecimentos prévios do mundo (por exemplo, morango vermelho) em conflito direto com a entrada visual (por exemplo, morango azul). Usando o Visual CounterFact, mostramos que as previsões do modelo inicialmente refletem conhecimentos prévios memorizados, mas mudam em direção à evidência visual nas camadas intermediárias e finais. Essa dinâmica revela uma competição entre as duas modalidades, com a entrada visual finalmente sobrepondo os conhecimentos prévios durante a avaliação. Para controlar esse comportamento, propomos vetores de direcionamento Pixels Versus Priors (PvP), um mecanismo para controlar as saídas do modelo em direção ao conhecimento do mundo ou à entrada visual por meio de intervenções no nível de ativação. Em média, o PvP consegue mudar 92,5% das previsões de cor e 74,6% das previsões de tamanho de conhecimentos prévios para contra-factuais. Juntos, esses achados oferecem novas ferramentas para interpretar e controlar o comportamento factual em modelos multimodais.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual
question answering, but it remains unclear whether their reasoning relies more
on memorized world knowledge or on the visual information present in the input
image. To investigate this, we introduce Visual CounterFact, a new dataset of
visually-realistic counterfactuals that put world knowledge priors (e.g, red
strawberry) into direct conflict with visual input (e.g, blue strawberry).
Using Visual CounterFact, we show that model predictions initially reflect
memorized priors, but shift toward visual evidence in mid-to-late layers. This
dynamic reveals a competition between the two modalities, with visual input
ultimately overriding priors during evaluation. To control this behavior, we
propose Pixels Versus Priors (PvP) steering vectors, a mechanism for
controlling model outputs toward either world knowledge or visual input through
activation-level interventions. On average, PvP successfully shifts 92.5% of
color and 74.6% of size predictions from priors to counterfactuals. Together,
these findings offer new tools for interpreting and controlling factual
behavior in multimodal models.