ChatPaper.aiChatPaper

대조적 주의를 통한 초점 맞추기: 시각-언어 모델의 시각적 추론 능력 향상

Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

September 8, 2025
저자: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI

초록

비전-언어 모델(VLMs)은 다양한 시각적 작업에서 뛰어난 성과를 보여왔지만, 복잡한 시각적 환경에서는 성능이 저하됩니다. 기존의 개선 방법들은 추가적인 학습이 필요하거나 외부 분할 도구에 의존하거나 거친 수준에서 작동하며, VLMs 내재된 능력을 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 VLMs의 주의 패턴을 조사하고 다음과 같은 사실을 발견했습니다: (1) 시각적 복잡성은 주의 엔트로피와 강한 상관관계를 가지며, 이는 추론 성능에 부정적인 영향을 미칩니다; (2) 주의는 얕은 층에서의 전역적 스캐닝에서 깊은 층으로 갈수록 집중적 수렴으로 점진적으로 정제되며, 수렴 정도는 시각적 복잡성에 의해 결정됩니다. (3) 이론적으로, 일반적인 쿼리와 작업 특화 쿼리 간의 주의 맵 대비를 통해 시각적 신호를 의미적 신호와 시각적 잡음 성분으로 분해할 수 있음을 증명했습니다. 이러한 통찰을 바탕으로, 우리는 픽셀 수준에서 주의 대비를 통해 작업 관련 시각적 신호를 추출하는 학습이 필요 없는 방법인 Contrastive Attention Refinement for Visual Enhancement (CARVE)를 제안합니다. 광범위한 실험을 통해 CARVE가 성능을 지속적으로 향상시키며, 오픈소스 모델에서 최대 75%의 성능 개선을 달성함을 입증했습니다. 우리의 연구는 시각적 복잡성과 주의 메커니즘 간의 상호작용에 대한 중요한 통찰을 제공하며, 대비 주의를 통해 시각적 추론을 개선하는 효율적인 경로를 제시합니다.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across diverse visual tasks, yet their performance degrades in complex visual environments. While existing enhancement approaches require additional training, rely on external segmentation tools, or operate at coarse-grained levels, they overlook the innate ability within VLMs. To bridge this gap, we investigate VLMs' attention patterns and discover that: (1) visual complexity strongly correlates with attention entropy, negatively impacting reasoning performance; (2) attention progressively refines from global scanning in shallow layers to focused convergence in deeper layers, with convergence degree determined by visual complexity. (3) Theoretically, we prove that the contrast of attention maps between general queries and task-specific queries enables the decomposition of visual signal into semantic signals and visual noise components. Building on these insights, we propose Contrastive Attention Refinement for Visual Enhancement (CARVE), a training-free method that extracts task-relevant visual signals through attention contrasting at the pixel level. Extensive experiments demonstrate that CARVE consistently enhances performance, achieving up to 75% improvement on open-source models. Our work provides critical insights into the interplay between visual complexity and attention mechanisms, offering an efficient pathway for improving visual reasoning with contrasting attention.
PDF162September 9, 2025