ChatPaper.aiChatPaper

## Cadres Teintés : Le Cadrage des Questions Aveugle les Modèles Vision-Langage

Tinted Frames: Question Framing Blinds Vision-Language Models

March 19, 2026
Auteurs: Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta
cs.AI

Résumé

Les modèles vision-langage (VLM) se sont révélés aveugles, sous-utilisant souvent leurs entrées visuelles même pour des tâches nécessitant un raisonnement visuel. Dans ce travail, nous démontrons que les VLM sont sélectivement aveugles. Ils modulent la quantité d'attention accordée aux entrées visuelles en fonction du cadrage linguistique, même lorsque des formulations alternatives exigent un raisonnement visuel identique. En utilisant l'attention visuelle comme sonde, nous quantifions comment le cadrage modifie à la fois la quantité et la distribution de l'attention sur l'image. Les cadrages contraints, tels que les questions à choix multiples et les questions oui/non, induisent une attention substantiellement moindre au contexte de l'image par rapport aux questions ouvertes, réduisent la concentration sur les régions pertinentes pour la tâche et déplacent l'attention vers des tokens non informatifs. Nous démontrons en outre que cette mauvaise allocation de l'attention est la cause principale de la dégradation de la précision et de l'incohérence entre les différents cadrages. S'appuyant sur cette compréhension mécaniste, nous introduisons une méthode légère d'ajustement par prompt utilisant des tokens apprenables qui encourage les schémas d'attention robustes et ancrés visuellement observés dans les cadres ouverts, améliorant l'ancrage visuel et les performances across les différents cadrages.
English
Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.
PDF131March 21, 2026