Pixels contre a priori : Contrôle des connaissances a priori dans les modèles vision-langage à travers des contre-faits visuels
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
May 21, 2025
Auteurs: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) obtiennent de bons résultats sur des tâches telles que la réponse à des questions visuelles, mais il reste incertain si leur raisonnement repose davantage sur des connaissances mémorisées du monde ou sur les informations visuelles présentes dans l'image d'entrée. Pour étudier cela, nous introduisons Visual CounterFact, un nouvel ensemble de données de contre-factuels visuellement réalistes qui mettent en conflit direct les connaissances a priori du monde (par exemple, une fraise rouge) avec les informations visuelles (par exemple, une fraise bleue). En utilisant Visual CounterFact, nous montrons que les prédictions du modèle reflètent initialement les connaissances a priori mémorisées, mais évoluent vers les preuves visuelles dans les couches intermédiaires à tardives. Cette dynamique révèle une compétition entre les deux modalités, où l'entrée visuelle finit par surpasser les connaissances a priori lors de l'évaluation. Pour contrôler ce comportement, nous proposons les vecteurs de pilotage Pixels Versus Priors (PvP), un mécanisme permettant de contrôler les sorties du modèle vers les connaissances du monde ou les entrées visuelles via des interventions au niveau des activations. En moyenne, PvP parvient à déplacer 92,5 % des prédictions de couleur et 74,6 % des prédictions de taille des connaissances a priori vers les contre-factuels. Ensemble, ces résultats offrent de nouveaux outils pour interpréter et contrôler le comportement factuel dans les modèles multimodaux.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual
question answering, but it remains unclear whether their reasoning relies more
on memorized world knowledge or on the visual information present in the input
image. To investigate this, we introduce Visual CounterFact, a new dataset of
visually-realistic counterfactuals that put world knowledge priors (e.g, red
strawberry) into direct conflict with visual input (e.g, blue strawberry).
Using Visual CounterFact, we show that model predictions initially reflect
memorized priors, but shift toward visual evidence in mid-to-late layers. This
dynamic reveals a competition between the two modalities, with visual input
ultimately overriding priors during evaluation. To control this behavior, we
propose Pixels Versus Priors (PvP) steering vectors, a mechanism for
controlling model outputs toward either world knowledge or visual input through
activation-level interventions. On average, PvP successfully shifts 92.5% of
color and 74.6% of size predictions from priors to counterfactuals. Together,
these findings offer new tools for interpreting and controlling factual
behavior in multimodal models.