Pixels versus Priors: Het Beheersen van Kennispriors in Visie-Taalmodellen door Visuele Tegenvoorstellingen
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
May 21, 2025
Auteurs: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) presteren goed op taken zoals visueel vraag-antwoord, maar het blijft onduidelijk of hun redenering meer steunt op uit het hoofd geleerde wereldkennis of op de visuele informatie in het invoerbeeld. Om dit te onderzoeken, introduceren we Visual CounterFact, een nieuwe dataset van visueel-realistische tegenstrijdigheden die wereldkennisvooroordelen (bijv. een rode aardbei) rechtstreeks in conflict brengen met visuele invoer (bijv. een blauwe aardbei). Met Visual CounterFact laten we zien dat modelvoorspellingen aanvankelijk de uit het hoofd geleerde vooroordelen weerspiegelen, maar verschuiven naar visueel bewijs in de midden tot late lagen. Deze dynamiek onthult een strijd tussen de twee modaliteiten, waarbij de visuele invoer uiteindelijk de vooroordelen overschrijft tijdens de evaluatie. Om dit gedrag te beheersen, stellen we Pixels Versus Priors (PvP) stuurvectoren voor, een mechanisme om modeluitvoer te sturen naar wereldkennis of visuele invoer via interventies op activatieniveau. Gemiddeld verschuift PvP met succes 92,5% van de kleurvoorspellingen en 74,6% van de groottevoorspellingen van vooroordelen naar tegenstrijdigheden. Samen bieden deze bevindingen nieuwe tools voor het interpreteren en beheersen van feitelijk gedrag in multimodale modellen.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual
question answering, but it remains unclear whether their reasoning relies more
on memorized world knowledge or on the visual information present in the input
image. To investigate this, we introduce Visual CounterFact, a new dataset of
visually-realistic counterfactuals that put world knowledge priors (e.g, red
strawberry) into direct conflict with visual input (e.g, blue strawberry).
Using Visual CounterFact, we show that model predictions initially reflect
memorized priors, but shift toward visual evidence in mid-to-late layers. This
dynamic reveals a competition between the two modalities, with visual input
ultimately overriding priors during evaluation. To control this behavior, we
propose Pixels Versus Priors (PvP) steering vectors, a mechanism for
controlling model outputs toward either world knowledge or visual input through
activation-level interventions. On average, PvP successfully shifts 92.5% of
color and 74.6% of size predictions from priors to counterfactuals. Together,
these findings offer new tools for interpreting and controlling factual
behavior in multimodal models.