Getönte Rahmen: Die Fragestellung vernebelt Vision-Sprache-Modelle

Zusammenfassung

Vision-Language Models (VLMs) haben sich als blind erwiesen, da sie ihre visuellen Eingaben oft nicht ausreichend nutzen, selbst bei Aufgaben, die visuelles Schlussfolgern erfordern. In dieser Arbeit zeigen wir, dass VLMs selektiv blind sind. Sie modulieren den Grad der Aufmerksamkeit, die sie auf visuelle Eingaben richten, basierend auf der sprachlichen Formulierung – selbst wenn alternative Formulierungen identisches visuelles Schlussfolgern erfordern. Indem wir visuelle Aufmerksamkeit als Messinstrument nutzen, quantifizieren wir, wie die Formulierung sowohl die Menge als auch die Verteilung der Aufmerksamkeit über das Bild hinweg verändert. Eingeschränkte Formulierungen wie Multiple-Choice- und Ja/Nein-Fragen führen zu deutlich geringerer Aufmerksamkeit für den Bildkontext im Vergleich zu offenen Formulierungen, reduzieren den Fokus auf aufgabenrelevante Regionen und lenken die Aufmerksamkeit auf nicht-informative Tokens. Wir zeigen weiter, dass diese fehlerhafte Aufmerksamkeitsverteilung die Hauptursache für verringerte Genauigkeit und Inkonsistenz über verschiedene Formulierungen hinweg ist. Aufbauend auf dieser mechanistischen Erkenntnis stellen wir eine leichtgewichtige Prompt-Tuning-Methode vor, die lernbare Tokens verwendet, um die robusten, visuell verankerten Aufmerksamkeitsmuster zu fördern, die in offenen Settings beobachtet werden. Dies verbessert die visuelle Verankerung und die Leistung across verschiedenen Formulierungen.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

Getönte Rahmen: Die Fragestellung vernebelt Vision-Sprache-Modelle

Tinted Frames: Question Framing Blinds Vision-Language Models

Zusammenfassung

Support