Фокусировка через контрастное внимание: улучшение визуального мышления в моделях визуального языка
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
September 8, 2025
Авторы: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют впечатляющие результаты в решении разнообразных визуальных задач, однако их производительность снижается в сложных визуальных средах. Существующие подходы к улучшению требуют дополнительного обучения, полагаются на внешние инструменты сегментации или работают на грубом уровне, упуская из виду внутренние возможности VLMs. Чтобы устранить этот пробел, мы исследуем паттерны внимания в VLMs и обнаруживаем, что: (1) визуальная сложность сильно коррелирует с энтропией внимания, негативно влияя на качество рассуждений; (2) внимание постепенно уточняется от глобального сканирования в поверхностных слоях до сфокусированной конвергенции в более глубоких слоях, причем степень конвергенции определяется визуальной сложностью; (3) Теоретически мы доказываем, что контраст карт внимания между общими запросами и задачами позволяет декомпозировать визуальный сигнал на семантические сигналы и компоненты визуального шума. На основе этих инсайтов мы предлагаем Contrastive Attention Refinement for Visual Enhancement (CARVE) — метод, не требующий обучения, который извлекает визуальные сигналы, релевантные задаче, через контрастирование внимания на уровне пикселей. Многочисленные эксперименты показывают, что CARVE стабильно улучшает производительность, достигая до 75% улучшения на моделях с открытым исходным кодом. Наша работа предоставляет ключевые инсайты о взаимосвязи визуальной сложности и механизмов внимания, предлагая эффективный путь для улучшения визуальных рассуждений с помощью контрастирующего внимания.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across
diverse visual tasks, yet their performance degrades in complex visual
environments. While existing enhancement approaches require additional
training, rely on external segmentation tools, or operate at coarse-grained
levels, they overlook the innate ability within VLMs. To bridge this gap, we
investigate VLMs' attention patterns and discover that: (1) visual complexity
strongly correlates with attention entropy, negatively impacting reasoning
performance; (2) attention progressively refines from global scanning in
shallow layers to focused convergence in deeper layers, with convergence degree
determined by visual complexity. (3) Theoretically, we prove that the contrast
of attention maps between general queries and task-specific queries enables the
decomposition of visual signal into semantic signals and visual noise
components. Building on these insights, we propose Contrastive Attention
Refinement for Visual Enhancement (CARVE), a training-free method that extracts
task-relevant visual signals through attention contrasting at the pixel level.
Extensive experiments demonstrate that CARVE consistently enhances performance,
achieving up to 75% improvement on open-source models. Our work provides
critical insights into the interplay between visual complexity and attention
mechanisms, offering an efficient pathway for improving visual reasoning with
contrasting attention.