Тонированные рамки: формулировка вопросов ослепляет модели «визуальный язык».

Аннотация

Модели «зрение–язык» (Vision-Language Models, VLM) демонстрируют «слепоту», часто недостаточно используя визуальные входные данные даже в задачах, требующих зрительного анализа. В данной работе мы показываем, что VLM являются избирательно слепыми. Они модулируют объем внимания, уделяемого визуальным данным, в зависимости от лингвистического контекста, даже когда альтернативные формулировки требуют идентичного визуального анализа. Используя механизм зрительного внимания в качестве инструмента, мы количественно оцениваем, как формулировка влияет на объем и распределение внимания по изображению. Ограничивающие формулировки, такие как множественный выбор и «да/нет», приводят к существенно меньшему вниманию к контексту изображения по сравнению с открытыми вопросами, снижают фокус на релевантных для задачи областях и смещают внимание к неинформативным токенам. Мы также демонстрируем, что это нерациональное распределение внимания является основной причиной снижения точности и несогласованности результатов при смене формулировок. Опираясь на это механистическое понимание, мы предлагаем метод легкой настройки промптов с использованием обучаемых токенов, который способствует формированию устойчивых, визуально обоснованных паттернов внимания, наблюдаемых в открытых условиях, улучшая визуальную обоснованность и повышая производительность при различных формулировках.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

Тонированные рамки: формулировка вопросов ослепляет модели «визуальный язык».

Tinted Frames: Question Framing Blinds Vision-Language Models

Аннотация

Support