Marcos de Referencia Teñidos: El Enmarcado de Preguntas Ciega a los Modelos de Visión y Lenguaje

Resumen

Los Modelos de Lenguaje-Visión (VLMs) han demostrado ser ciegos, subutilizando a menudo sus entradas visuales incluso en tareas que requieren razonamiento visual. En este trabajo, demostramos que los VLMs son selectivamente ciegos. Modulan la cantidad de atención aplicada a las entradas visuales en función del encuadre lingüístico, incluso cuando encuadres alternativos exigen un razonamiento visual idéntico. Utilizando la atención visual como sonda, cuantificamos cómo el encuadre altera tanto la cantidad como la distribución de la atención sobre la imagen. Los encuadres restrictivos, como opción múltiple y sí/no, inducen una atención sustancialmente menor al contexto de la imagen en comparación con los encuadres abiertos, reducen el enfoque en las regiones relevantes para la tarea y desplazan la atención hacia tokens no informativos. Demostramos además que esta mala asignación de la atención es la causa principal de la degradación de la precisión y la inconsistencia entre diferentes encuadres. Basándonos en esta comprensión mecanicista, introducimos un método ligero de ajuste por prompts que utiliza tokens aprendibles para fomentar los patrones de atención robustos y visualmente fundamentados observados en entornos de respuesta abierta, mejorando la fundamentación visual y el rendimiento en todos los encuadres.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

Marcos de Referencia Teñidos: El Enmarcado de Preguntas Ciega a los Modelos de Visión y Lenguaje

Tinted Frames: Question Framing Blinds Vision-Language Models

Resumen

Support