ChatPaper.aiChatPaper

Foco por Atenção Contrastiva: Aprimorando o Raciocínio Visual de Modelos de Linguagem Visual

Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

September 8, 2025
Autores: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) têm demonstrado sucesso notável em diversas tarefas visuais, mas seu desempenho se degrada em ambientes visuais complexos. Embora as abordagens de aprimoramento existentes exijam treinamento adicional, dependam de ferramentas externas de segmentação ou operem em níveis de granularidade grosseira, elas negligenciam a capacidade inata dos VLMs. Para preencher essa lacuna, investigamos os padrões de atenção dos VLMs e descobrimos que: (1) a complexidade visual está fortemente correlacionada com a entropia da atenção, impactando negativamente o desempenho do raciocínio; (2) a atenção refina-se progressivamente, passando de uma varredura global nas camadas mais superficiais para uma convergência focada nas camadas mais profundas, com o grau de convergência determinado pela complexidade visual. (3) Teoricamente, provamos que o contraste dos mapas de atenção entre consultas gerais e consultas específicas da tarefa permite a decomposição do sinal visual em componentes de sinais semânticos e ruído visual. Com base nessas descobertas, propomos o Refinamento de Atenção Contrastante para Aprimoramento Visual (CARVE), um método livre de treinamento que extrai sinais visuais relevantes para a tarefa por meio do contraste de atenção no nível de pixel. Experimentos extensivos demonstram que o CARVE melhora consistentemente o desempenho, alcançando até 75% de melhoria em modelos de código aberto. Nosso trabalho fornece insights críticos sobre a interação entre complexidade visual e mecanismos de atenção, oferecendo um caminho eficiente para melhorar o raciocínio visual com atenção contrastante.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across diverse visual tasks, yet their performance degrades in complex visual environments. While existing enhancement approaches require additional training, rely on external segmentation tools, or operate at coarse-grained levels, they overlook the innate ability within VLMs. To bridge this gap, we investigate VLMs' attention patterns and discover that: (1) visual complexity strongly correlates with attention entropy, negatively impacting reasoning performance; (2) attention progressively refines from global scanning in shallow layers to focused convergence in deeper layers, with convergence degree determined by visual complexity. (3) Theoretically, we prove that the contrast of attention maps between general queries and task-specific queries enables the decomposition of visual signal into semantic signals and visual noise components. Building on these insights, we propose Contrastive Attention Refinement for Visual Enhancement (CARVE), a training-free method that extracts task-relevant visual signals through attention contrasting at the pixel level. Extensive experiments demonstrate that CARVE consistently enhances performance, achieving up to 75% improvement on open-source models. Our work provides critical insights into the interplay between visual complexity and attention mechanisms, offering an efficient pathway for improving visual reasoning with contrasting attention.
PDF162September 9, 2025