ChatPaper.aiChatPaper

Fokussierung durch kontrastive Aufmerksamkeit: Verbesserung des visuellen Denkens von VLMs

Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

September 8, 2025
papers.authors: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI

papers.abstract

Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei verschiedenen visuellen Aufgaben gezeigt, doch ihre Leistung verschlechtert sich in komplexen visuellen Umgebungen. Während bestehende Verbesserungsansätze zusätzliches Training erfordern, auf externe Segmentierungswerkzeuge angewiesen sind oder auf grobgranularer Ebene operieren, übersehen sie die inhärenten Fähigkeiten von VLMs. Um diese Lücke zu schließen, untersuchen wir die Aufmerksamkeitsmuster von VLMs und entdecken Folgendes: (1) Visuelle Komplexität korreliert stark mit der Aufmerksamkeitsentropie, was sich negativ auf die Schlussfolgerungsleistung auswirkt; (2) Die Aufmerksamkeit verfeinert sich schrittweise vom globalen Scannen in flachen Schichten zur fokussierten Konvergenz in tieferen Schichten, wobei der Konvergenzgrad durch die visuelle Komplexität bestimmt wird. (3) Theoretisch beweisen wir, dass der Kontrast von Aufmerksamkeitskarten zwischen allgemeinen Abfragen und aufgabenbezogenen Abfragen die Zerlegung des visuellen Signals in semantische Signale und visuelle Rauschkomponenten ermöglicht. Aufbauend auf diesen Erkenntnissen schlagen wir Contrastive Attention Refinement for Visual Enhancement (CARVE) vor, eine trainingsfreie Methode, die aufgabenrelevante visuelle Signale durch Aufmerksamkeitskontrastierung auf Pixelebene extrahiert. Umfangreiche Experimente zeigen, dass CARVE die Leistung konsequent verbessert und bis zu 75 % Verbesserung bei Open-Source-Modellen erreicht. Unsere Arbeit liefert entscheidende Einblicke in das Zusammenspiel zwischen visueller Komplexität und Aufmerksamkeitsmechanismen und bietet einen effizienten Weg zur Verbesserung des visuellen Denkens durch kontrastierende Aufmerksamkeit.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across diverse visual tasks, yet their performance degrades in complex visual environments. While existing enhancement approaches require additional training, rely on external segmentation tools, or operate at coarse-grained levels, they overlook the innate ability within VLMs. To bridge this gap, we investigate VLMs' attention patterns and discover that: (1) visual complexity strongly correlates with attention entropy, negatively impacting reasoning performance; (2) attention progressively refines from global scanning in shallow layers to focused convergence in deeper layers, with convergence degree determined by visual complexity. (3) Theoretically, we prove that the contrast of attention maps between general queries and task-specific queries enables the decomposition of visual signal into semantic signals and visual noise components. Building on these insights, we propose Contrastive Attention Refinement for Visual Enhancement (CARVE), a training-free method that extracts task-relevant visual signals through attention contrasting at the pixel level. Extensive experiments demonstrate that CARVE consistently enhances performance, achieving up to 75% improvement on open-source models. Our work provides critical insights into the interplay between visual complexity and attention mechanisms, offering an efficient pathway for improving visual reasoning with contrasting attention.
PDF162September 9, 2025