ChatPaper.aiChatPaper

Pixel versus Priorien: Steuerung von Wissensprioritäten in Vision-Sprache-Modellen durch visuelle Gegenfakten

Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts

May 21, 2025
Autoren: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) zeigen gute Leistungen bei Aufgaben wie der visuellen Fragebeantwortung, doch bleibt unklar, ob ihr Schlussfolgern stärker auf gespeichertem Weltwissen oder auf den visuellen Informationen im Eingabebild basiert. Um dies zu untersuchen, führen wir Visual CounterFact ein, einen neuen Datensatz visuell realistischer Kontrafaktualitäten, die Weltwissen-Prioritäten (z. B. rote Erdbeere) in direkten Konflikt mit visuellen Eingaben (z. B. blaue Erdbeere) setzen. Mithilfe von Visual CounterFact zeigen wir, dass die Modellvorhersagen zunächst gespeicherte Prioritäten widerspiegeln, sich jedoch in mittleren bis späten Schichten hin zu visuellen Beweisen verschieben. Diese Dynamik offenbart einen Wettstreit zwischen den beiden Modalitäten, wobei die visuelle Eingabe letztlich die Prioritäten während der Auswertung übertrumpft. Um dieses Verhalten zu steuern, schlagen wir Pixels Versus Priors (PvP) Steering Vectors vor, einen Mechanismus zur Kontrolle der Modellausgaben hin zu entweder Weltwissen oder visuellen Eingaben durch Eingriffe auf Aktivierungsebene. Im Durchschnitt gelingt es PvP, 92,5 % der Farb- und 74,6 % der Größenvorhersagen von Prioritäten zu Kontrafaktualitäten zu verschieben. Zusammen bieten diese Erkenntnisse neue Werkzeuge zur Interpretation und Steuerung faktischen Verhaltens in multimodalen Modellen.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual question answering, but it remains unclear whether their reasoning relies more on memorized world knowledge or on the visual information present in the input image. To investigate this, we introduce Visual CounterFact, a new dataset of visually-realistic counterfactuals that put world knowledge priors (e.g, red strawberry) into direct conflict with visual input (e.g, blue strawberry). Using Visual CounterFact, we show that model predictions initially reflect memorized priors, but shift toward visual evidence in mid-to-late layers. This dynamic reveals a competition between the two modalities, with visual input ultimately overriding priors during evaluation. To control this behavior, we propose Pixels Versus Priors (PvP) steering vectors, a mechanism for controlling model outputs toward either world knowledge or visual input through activation-level interventions. On average, PvP successfully shifts 92.5% of color and 74.6% of size predictions from priors to counterfactuals. Together, these findings offer new tools for interpreting and controlling factual behavior in multimodal models.
PDF22June 3, 2025