Píxeles frente a Priores: Control de Priores de Conocimiento en Modelos de Visión-Lenguaje mediante Contrafactos Visuales
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts
May 21, 2025
Autores: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) tienen un buen desempeño en tareas como la respuesta a preguntas visuales, pero aún no está claro si su razonamiento depende más del conocimiento del mundo memorizado o de la información visual presente en la imagen de entrada. Para investigar esto, presentamos Visual CounterFact, un nuevo conjunto de datos de contrahechos visualmente realistas que ponen en conflicto directo los conocimientos previos del mundo (por ejemplo, una fresa roja) con la entrada visual (por ejemplo, una fresa azul). Utilizando Visual CounterFact, demostramos que las predicciones del modelo inicialmente reflejan conocimientos previos memorizados, pero se desplazan hacia la evidencia visual en las capas intermedias y finales. Esta dinámica revela una competencia entre las dos modalidades, donde la entrada visual finalmente anula los conocimientos previos durante la evaluación. Para controlar este comportamiento, proponemos los vectores de dirección Píxeles versus Conocimientos Previos (PvP, por sus siglas en inglés), un mecanismo para controlar las salidas del modelo hacia el conocimiento del mundo o la entrada visual mediante intervenciones a nivel de activación. En promedio, PvP logra desplazar el 92.5% de las predicciones de color y el 74.6% de las predicciones de tamaño desde los conocimientos previos hacia los contrahechos. En conjunto, estos hallazgos ofrecen nuevas herramientas para interpretar y controlar el comportamiento factual en modelos multimodales.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual
question answering, but it remains unclear whether their reasoning relies more
on memorized world knowledge or on the visual information present in the input
image. To investigate this, we introduce Visual CounterFact, a new dataset of
visually-realistic counterfactuals that put world knowledge priors (e.g, red
strawberry) into direct conflict with visual input (e.g, blue strawberry).
Using Visual CounterFact, we show that model predictions initially reflect
memorized priors, but shift toward visual evidence in mid-to-late layers. This
dynamic reveals a competition between the two modalities, with visual input
ultimately overriding priors during evaluation. To control this behavior, we
propose Pixels Versus Priors (PvP) steering vectors, a mechanism for
controlling model outputs toward either world knowledge or visual input through
activation-level interventions. On average, PvP successfully shifts 92.5% of
color and 74.6% of size predictions from priors to counterfactuals. Together,
these findings offer new tools for interpreting and controlling factual
behavior in multimodal models.