ChatPaper.aiChatPaper

Пиксели против априорных знаний: Управление априорными знаниями в моделях "визуальный язык" через визуальные контрфакты

Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts

May 21, 2025
Авторы: Michal Golovanevsky, William Rudman, Michael Lepori, Amir Bar, Ritambhara Singh, Carsten Eickhoff
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) демонстрируют высокую производительность в задачах, таких как визуальное ответы на вопросы, однако остается неясным, основывается ли их рассуждение больше на запомненных знаниях о мире или на визуальной информации, присутствующей во входном изображении. Чтобы исследовать это, мы представляем Visual CounterFact — новый набор данных визуально реалистичных контрфактических примеров, которые ставят априорные знания о мире (например, красная клубника) в прямое противоречие с визуальным входом (например, синяя клубника). Используя Visual CounterFact, мы показываем, что предсказания моделей изначально отражают запомненные априорные знания, но смещаются в сторону визуальных данных в средних и поздних слоях. Эта динамика раскрывает конкуренцию между двумя модальностями, причем визуальный вход в конечном итоге перевешивает априорные знания во время оценки. Чтобы управлять этим поведением, мы предлагаем векторы управления Pixels Versus Priors (PvP) — механизм для контроля выходов модели в сторону либо знаний о мире, либо визуального входного сигнала через вмешательства на уровне активаций. В среднем PvP успешно смещает 92,5% предсказаний цвета и 74,6% предсказаний размера от априорных знаний к контрфактическим данным. Вместе эти результаты предлагают новые инструменты для интерпретации и управления фактическим поведением в мультимодальных моделях.
English
Multimodal Large Language Models (MLLMs) perform well on tasks such as visual question answering, but it remains unclear whether their reasoning relies more on memorized world knowledge or on the visual information present in the input image. To investigate this, we introduce Visual CounterFact, a new dataset of visually-realistic counterfactuals that put world knowledge priors (e.g, red strawberry) into direct conflict with visual input (e.g, blue strawberry). Using Visual CounterFact, we show that model predictions initially reflect memorized priors, but shift toward visual evidence in mid-to-late layers. This dynamic reveals a competition between the two modalities, with visual input ultimately overriding priors during evaluation. To control this behavior, we propose Pixels Versus Priors (PvP) steering vectors, a mechanism for controlling model outputs toward either world knowledge or visual input through activation-level interventions. On average, PvP successfully shifts 92.5% of color and 74.6% of size predictions from priors to counterfactuals. Together, these findings offer new tools for interpreting and controlling factual behavior in multimodal models.
PDF22June 3, 2025