Gekleurde Kaders: Hoe Vraagformulering Vision-Language-Modellen Verblindt

Samenvatting

Vision-Language Models (VLMs) blijken blind te zijn; ze benutten hun visuele invoer vaak onvoldoende, zelfs bij taken die visueel redeneren vereisen. In dit werk tonen we aan dat VLMs selectief blind zijn. Ze moduleren de hoeveelheid aandacht die aan visuele invoer wordt besteed op basis van linguïstische formulering, zelfs wanneer alternatieve formuleringen een identiek visueel redeneren vereisen. Door visuele aandacht als meetinstrument te gebruiken, kwantificeren we hoe formulering zowel de hoeveelheid als de verdeling van de aandacht over de afbeelding verandert. Beperkende formuleringen, zoals meerkeuzevragen en ja/nee-vragen, leiden tot aanzienlijk minder aandacht voor de beeldcontext in vergelijking met open-einde vragen, verminderen de focus op taakrelevante regio's en verleggen de aandacht naar niet-informatieve tokens. We tonen verder aan dat deze verkeerde aandachtstoewijzing de voornaamste oorzaak is van verminderde nauwkeurigheid en inconsistentie tussen verschillende formuleringen. Voortbouwend op dit mechanistische inzicht introduceren we een lichtgewicht prompt-tuning methode met leerbare tokens die de robuuste, visueel verankerde aandachtspatronen stimuleert die worden waargenomen in open-einde settings, wat de visuele verankering verbetert en de prestaties over verschillende formuleringen heen verbetert.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

Gekleurde Kaders: Hoe Vraagformulering Vision-Language-Modellen Verblindt

Tinted Frames: Question Framing Blinds Vision-Language Models

Samenvatting

Support