Pixels Versus Priores: Controlando Priores de Conhecimento em Modelos de Visão-Linguagem por meio de Contrafatos Visuais

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) apresentam bom desempenho em tarefas como resposta a perguntas visuais, mas ainda não está claro se seu raciocínio depende mais de conhecimento prévio memorizado ou das informações visuais presentes na imagem de entrada. Para investigar isso, introduzimos o Visual CounterFact, um novo conjunto de dados de contra-factuais visualmente realistas que colocam conhecimentos prévios do mundo (por exemplo, morango vermelho) em conflito direto com a entrada visual (por exemplo, morango azul). Usando o Visual CounterFact, mostramos que as previsões do modelo inicialmente refletem conhecimentos prévios memorizados, mas mudam em direção à evidência visual nas camadas intermediárias e finais. Essa dinâmica revela uma competição entre as duas modalidades, com a entrada visual finalmente sobrepondo os conhecimentos prévios durante a avaliação. Para controlar esse comportamento, propomos vetores de direcionamento Pixels Versus Priors (PvP), um mecanismo para controlar as saídas do modelo em direção ao conhecimento do mundo ou à entrada visual por meio de intervenções no nível de ativação. Em média, o PvP consegue mudar 92,5% das previsões de cor e 74,6% das previsões de tamanho de conhecimentos prévios para contra-factuais. Juntos, esses achados oferecem novas ferramentas para interpretar e controlar o comportamento factual em modelos multimodais.

English

Multimodal Large Language Models (MLLMs) perform well on tasks such as visual question answering, but it remains unclear whether their reasoning relies more on memorized world knowledge or on the visual information present in the input image. To investigate this, we introduce Visual CounterFact, a new dataset of visually-realistic counterfactuals that put world knowledge priors (e.g, red strawberry) into direct conflict with visual input (e.g, blue strawberry). Using Visual CounterFact, we show that model predictions initially reflect memorized priors, but shift toward visual evidence in mid-to-late layers. This dynamic reveals a competition between the two modalities, with visual input ultimately overriding priors during evaluation. To control this behavior, we propose Pixels Versus Priors (PvP) steering vectors, a mechanism for controlling model outputs toward either world knowledge or visual input through activation-level interventions. On average, PvP successfully shifts 92.5% of color and 74.6% of size predictions from priors to counterfactuals. Together, these findings offer new tools for interpreting and controlling factual behavior in multimodal models.

Pixels Versus Priores: Controlando Priores de Conhecimento em Modelos de Visão-Linguagem por meio de Contrafatos Visuais

Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts

Resumo

Support