Quadros Coloridos: A Formulação de Perguntas Cega os Modelos de Linguagem Visual

Resumo

Os Modelos de Visão e Linguagem (VLMs) têm demonstrado ser "cegos", frequentemente subutilizando seus inputs visuais mesmo em tarefas que exigem raciocínio visual. Neste trabalho, demonstramos que os VLMs são seletivamente cegos. Eles modulam a quantidade de atenção aplicada aos inputs visuais com base no enquadramento linguístico, mesmo quando enquadramentos alternativos exigem um raciocínio visual idêntico. Usando a atenção visual como uma sonda, quantificamos como o enquadramento altera tanto a quantidade quanto a distribuição da atenção sobre a imagem. Enquadramentos restritivos, como múltipla escolha e sim/não, induzem uma atenção substancialmente menor ao contexto da imagem em comparação com formatos abertos, reduzem o foco em regiões relevantes para a tarefa e desviam a atenção para tokens não informativos. Demonstramos ainda que essa má alocação de atenção é a principal causa da degradação da precisão e da inconsistência entre diferentes enquadramentos. Com base nessa compreensão mecanicista, introduzimos um método leve de ajuste de prompt usando tokens aprendíveis que incentiva os padrões de atenção robustos e visualmente fundamentados observados em configurações abertas, melhorando a fundamentação visual e o desempenho em todos os enquadramentos.

English

Vision-Language Models (VLMs) have been shown to be blind, often underutilizing their visual inputs even on tasks that require visual reasoning. In this work, we demonstrate that VLMs are selectively blind. They modulate the amount of attention applied to visual inputs based on linguistic framing even when alternative framings demand identical visual reasoning. Using visual attention as a probe, we quantify how framing alters both the amount and distribution of attention over the image. Constrained framings, such as multiple choice and yes/no, induce substantially lower attention to image context compared to open-ended, reduce focus on task-relevant regions, and shift attention towards uninformative tokens. We further demonstrate that this attention misallocation is the principal cause of degraded accuracy and cross-framing inconsistency. Building on this mechanistic insight, we introduce a lightweight prompt-tuning method using learnable tokens that encourages the robust, visually grounded attention patterns observed in open-ended settings, improving visual grounding and improving performance across framings.

Quadros Coloridos: A Formulação de Perguntas Cega os Modelos de Linguagem Visual

Tinted Frames: Question Framing Blinds Vision-Language Models

Resumo

Support