Pixel contro Prior: Controllo dei Priori di Conoscenza nei Modelli Visione-Linguaggio attraverso Controfatti Visivi
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
May 21, 2025
Autori: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) ottengono buoni risultati in compiti come il rispondere a domande visive, ma rimane poco chiaro se il loro ragionamento si basi maggiormente su conoscenze del mondo memorizzate o sulle informazioni visive presenti nell'immagine di input. Per indagare questo aspetto, introduciamo Visual CounterFact, un nuovo dataset di controfattuali visivamente realistici che mettono in conflitto diretto le conoscenze pregresse del mondo (ad esempio, una fragola rossa) con l'input visivo (ad esempio, una fragola blu). Utilizzando Visual CounterFact, dimostriamo che le previsioni del modello inizialmente riflettono le conoscenze pregresse memorizzate, ma si spostano verso l'evidenza visiva negli strati intermedi e finali. Questa dinamica rivale una competizione tra le due modalità, con l'input visivo che alla fine prevale sulle conoscenze pregresse durante la valutazione. Per controllare questo comportamento, proponiamo i vettori di orientamento Pixels Versus Priors (PvP), un meccanismo per indirizzare le uscite del modello verso le conoscenze del mondo o l'input visivo attraverso interventi a livello di attivazione. In media, PvP riesce a spostare il 92,5% delle previsioni relative al colore e il 74,6% di quelle relative alla dimensione dalle conoscenze pregresse ai controfattuali. Insieme, questi risultati offrono nuovi strumenti per interpretare e controllare il comportamento fattuale nei modelli multimodali.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual
question answering, but it remains unclear whether their reasoning relies more
on memorized world knowledge or on the visual information present in the input
image. To investigate this, we introduce Visual CounterFact, a new dataset of
visually-realistic counterfactuals that put world knowledge priors (e.g, red
strawberry) into direct conflict with visual input (e.g, blue strawberry).
Using Visual CounterFact, we show that model predictions initially reflect
memorized priors, but shift toward visual evidence in mid-to-late layers. This
dynamic reveals a competition between the two modalities, with visual input
ultimately overriding priors during evaluation. To control this behavior, we
propose Pixels Versus Priors (PvP) steering vectors, a mechanism for
controlling model outputs toward either world knowledge or visual input through
activation-level interventions. On average, PvP successfully shifts 92.5% of
color and 74.6% of size predictions from priors to counterfactuals. Together,
these findings offer new tools for interpreting and controlling factual
behavior in multimodal models.