ChatPaper.aiChatPaper

Pixels versus Priors: Het Beheersen van Kennispriors in Visie-Taalmodellen door Visuele Tegenvoorstellingen

Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts

May 21, 2025
Auteurs: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) presteren goed op taken zoals visueel vraag-antwoord, maar het blijft onduidelijk of hun redenering meer steunt op uit het hoofd geleerde wereldkennis of op de visuele informatie in het invoerbeeld. Om dit te onderzoeken, introduceren we Visual CounterFact, een nieuwe dataset van visueel-realistische tegenstrijdigheden die wereldkennisvooroordelen (bijv. een rode aardbei) rechtstreeks in conflict brengen met visuele invoer (bijv. een blauwe aardbei). Met Visual CounterFact laten we zien dat modelvoorspellingen aanvankelijk de uit het hoofd geleerde vooroordelen weerspiegelen, maar verschuiven naar visueel bewijs in de midden tot late lagen. Deze dynamiek onthult een strijd tussen de twee modaliteiten, waarbij de visuele invoer uiteindelijk de vooroordelen overschrijft tijdens de evaluatie. Om dit gedrag te beheersen, stellen we Pixels Versus Priors (PvP) stuurvectoren voor, een mechanisme om modeluitvoer te sturen naar wereldkennis of visuele invoer via interventies op activatieniveau. Gemiddeld verschuift PvP met succes 92,5% van de kleurvoorspellingen en 74,6% van de groottevoorspellingen van vooroordelen naar tegenstrijdigheden. Samen bieden deze bevindingen nieuwe tools voor het interpreteren en beheersen van feitelijk gedrag in multimodale modellen.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual question answering, but it remains unclear whether their reasoning relies more on memorized world knowledge or on the visual information present in the input image. To investigate this, we introduce Visual CounterFact, a new dataset of visually-realistic counterfactuals that put world knowledge priors (e.g, red strawberry) into direct conflict with visual input (e.g, blue strawberry). Using Visual CounterFact, we show that model predictions initially reflect memorized priors, but shift toward visual evidence in mid-to-late layers. This dynamic reveals a competition between the two modalities, with visual input ultimately overriding priors during evaluation. To control this behavior, we propose Pixels Versus Priors (PvP) steering vectors, a mechanism for controlling model outputs toward either world knowledge or visual input through activation-level interventions. On average, PvP successfully shifts 92.5% of color and 74.6% of size predictions from priors to counterfactuals. Together, these findings offer new tools for interpreting and controlling factual behavior in multimodal models.
PDF22June 3, 2025