## Cadres Teintés : Le Cadrage des Questions Aveugle les Modèles Vision-Langage

Résumé

Les modèles vision-langage (VLM) se sont révélés aveugles, sous-utilisant souvent leurs entrées visuelles même pour des tâches nécessitant un raisonnement visuel. Dans ce travail, nous démontrons que les VLM sont sélectivement aveugles. Ils modulent la quantité d'attention accordée aux entrées visuelles en fonction du cadrage linguistique, même lorsque des formulations alternatives exigent un raisonnement visuel identique. En utilisant l'attention visuelle comme sonde, nous quantifions comment le cadrage modifie à la fois la quantité et la distribution de l'attention sur l'image. Les cadrages contraints, tels que les questions à choix multiples et les questions oui/non, induisent une attention substantiellement moindre au contexte de l'image par rapport aux questions ouvertes, réduisent la concentration sur les régions pertinentes pour la tâche et déplacent l'attention vers des tokens non informatifs. Nous démontrons en outre que cette mauvaise allocation de l'attention est la cause principale de la dégradation de la précision et de l'incohérence entre les différents cadrages. S'appuyant sur cette compréhension mécaniste, nous introduisons une méthode légère d'ajustement par prompt utilisant des tokens apprenables qui encourage les schémas d'attention robustes et ancrés visuellement observés dans les cadres ouverts, améliorant l'ancrage visuel et les performances across les différents cadrages.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

## Cadres Teintés : Le Cadrage des Questions Aveugle les Modèles Vision-Langage

Tinted Frames: Question Framing Blinds Vision-Language Models

Résumé

Support