Attenzione per Contrasto: Migliorare il Ragionamento Visivo nei Modelli Linguistico-Visuali
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
September 8, 2025
Autori: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno dimostrato un successo notevole in una vasta gamma di compiti visivi, ma le loro prestazioni si degradano in ambienti visivi complessi. Mentre gli approcci esistenti di miglioramento richiedono ulteriore addestramento, si basano su strumenti esterni di segmentazione o operano a livelli grossolani, trascurano l'abilità intrinseca dei VLMs. Per colmare questa lacuna, investigiamo i pattern di attenzione dei VLMs e scopriamo che: (1) la complessità visiva è fortemente correlata con l'entropia dell'attenzione, influenzando negativamente le prestazioni di ragionamento; (2) l'attenzione si affina progressivamente da una scansione globale negli strati superficiali a una convergenza focalizzata negli strati più profondi, con il grado di convergenza determinato dalla complessità visiva. (3) Teoricamente, dimostriamo che il contrasto delle mappe di attenzione tra query generali e query specifiche per il compito consente la scomposizione del segnale visivo in componenti di segnali semantici e rumore visivo. Basandoci su queste intuizioni, proponiamo il Contrastive Attention Refinement for Visual Enhancement (CARVE), un metodo senza addestramento che estrae i segnali visivi rilevanti per il compito attraverso il contrasto dell'attenzione a livello di pixel. Esperimenti estensivi dimostrano che CARVE migliora costantemente le prestazioni, raggiungendo fino al 75% di miglioramento sui modelli open-source. Il nostro lavoro fornisce intuizioni critiche sull'interazione tra complessità visiva e meccanismi di attenzione, offrendo una via efficiente per migliorare il ragionamento visivo con il contrasto dell'attenzione.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across
diverse visual tasks, yet their performance degrades in complex visual
environments. While existing enhancement approaches require additional
training, rely on external segmentation tools, or operate at coarse-grained
levels, they overlook the innate ability within VLMs. To bridge this gap, we
investigate VLMs' attention patterns and discover that: (1) visual complexity
strongly correlates with attention entropy, negatively impacting reasoning
performance; (2) attention progressively refines from global scanning in
shallow layers to focused convergence in deeper layers, with convergence degree
determined by visual complexity. (3) Theoretically, we prove that the contrast
of attention maps between general queries and task-specific queries enables the
decomposition of visual signal into semantic signals and visual noise
components. Building on these insights, we propose Contrastive Attention
Refinement for Visual Enhancement (CARVE), a training-free method that extracts
task-relevant visual signals through attention contrasting at the pixel level.
Extensive experiments demonstrate that CARVE consistently enhances performance,
achieving up to 75% improvement on open-source models. Our work provides
critical insights into the interplay between visual complexity and attention
mechanisms, offering an efficient pathway for improving visual reasoning with
contrasting attention.