Focussen door Contrastieve Aandacht: Verbetering van Visueel Redeneren in VLMs
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
September 8, 2025
Auteurs: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben opmerkelijke successen geboekt bij diverse visuele taken, maar hun prestaties verslechteren in complexe visuele omgevingen. Hoewel bestaande verbeteringsmethoden aanvullende training vereisen, afhankelijk zijn van externe segmentatietools of op grofkorrelige niveaus werken, negeren ze het inherente vermogen van VLMs. Om deze kloof te overbruggen, onderzoeken we de aandachtspatronen van VLMs en ontdekken dat: (1) visuele complexiteit sterk correleert met aandacht-entropie, wat een negatieve impact heeft op de redeneerprestaties; (2) aandacht geleidelijk verfijnt van globale scanning in oppervlakkige lagen naar gerichte convergentie in diepere lagen, waarbij de mate van convergentie wordt bepaald door visuele complexiteit. (3) Theoretisch bewijzen we dat het contrast van aandachtkaarten tussen algemene queries en taakspecifieke queries het mogelijk maakt om visuele signalen te ontbinden in semantische signalen en visuele ruiscomponenten. Op basis van deze inzichten stellen we Contrastive Attention Refinement for Visual Enhancement (CARVE) voor, een trainingsvrije methode die taakrelevante visuele signalen extraheert door aandachtcontrasten op pixelniveau. Uitgebreide experimenten tonen aan dat CARVE consistent de prestaties verbetert, met verbeteringen tot wel 75% op open-source modellen. Ons werk biedt kritische inzichten in de wisselwerking tussen visuele complexiteit en aandachtmechanismen, en biedt een efficiënte weg om visueel redeneren te verbeteren met contrasterende aandacht.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across
diverse visual tasks, yet their performance degrades in complex visual
environments. While existing enhancement approaches require additional
training, rely on external segmentation tools, or operate at coarse-grained
levels, they overlook the innate ability within VLMs. To bridge this gap, we
investigate VLMs' attention patterns and discover that: (1) visual complexity
strongly correlates with attention entropy, negatively impacting reasoning
performance; (2) attention progressively refines from global scanning in
shallow layers to focused convergence in deeper layers, with convergence degree
determined by visual complexity. (3) Theoretically, we prove that the contrast
of attention maps between general queries and task-specific queries enables the
decomposition of visual signal into semantic signals and visual noise
components. Building on these insights, we propose Contrastive Attention
Refinement for Visual Enhancement (CARVE), a training-free method that extracts
task-relevant visual signals through attention contrasting at the pixel level.
Extensive experiments demonstrate that CARVE consistently enhances performance,
achieving up to 75% improvement on open-source models. Our work provides
critical insights into the interplay between visual complexity and attention
mechanisms, offering an efficient pathway for improving visual reasoning with
contrasting attention.