Enfoque mediante Atención Contrastiva: Mejorando el Razonamiento Visual de los Modelos de Lenguaje Visual
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
September 8, 2025
Autores: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado un éxito notable en diversas tareas visuales, aunque su rendimiento se degrada en entornos visuales complejos. Mientras que los enfoques de mejora existentes requieren entrenamiento adicional, dependen de herramientas de segmentación externas o operan a niveles de granularidad gruesa, pasan por alto la capacidad innata de los VLMs. Para cerrar esta brecha, investigamos los patrones de atención de los VLMs y descubrimos que: (1) la complejidad visual se correlaciona fuertemente con la entropía de la atención, impactando negativamente el rendimiento del razonamiento; (2) la atención se refina progresivamente desde un escaneo global en capas superficiales hasta una convergencia focalizada en capas más profundas, donde el grado de convergencia está determinado por la complejidad visual. (3) Teóricamente, demostramos que el contraste de los mapas de atención entre consultas generales y consultas específicas de tarea permite descomponer la señal visual en componentes de señales semánticas y ruido visual. Basándonos en estos hallazgos, proponemos el Refinamiento de Atención Contrastante para la Mejora Visual (CARVE, por sus siglas en inglés), un método sin necesidad de entrenamiento que extrae señales visuales relevantes para la tarea mediante el contraste de atención a nivel de píxel. Experimentos extensos demuestran que CARVE mejora consistentemente el rendimiento, logrando hasta un 75% de mejora en modelos de código abierto. Nuestro trabajo proporciona insights críticos sobre la interacción entre la complejidad visual y los mecanismos de atención, ofreciendo una vía eficiente para mejorar el razonamiento visual mediante el contraste de atención.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across
diverse visual tasks, yet their performance degrades in complex visual
environments. While existing enhancement approaches require additional
training, rely on external segmentation tools, or operate at coarse-grained
levels, they overlook the innate ability within VLMs. To bridge this gap, we
investigate VLMs' attention patterns and discover that: (1) visual complexity
strongly correlates with attention entropy, negatively impacting reasoning
performance; (2) attention progressively refines from global scanning in
shallow layers to focused convergence in deeper layers, with convergence degree
determined by visual complexity. (3) Theoretically, we prove that the contrast
of attention maps between general queries and task-specific queries enables the
decomposition of visual signal into semantic signals and visual noise
components. Building on these insights, we propose Contrastive Attention
Refinement for Visual Enhancement (CARVE), a training-free method that extracts
task-relevant visual signals through attention contrasting at the pixel level.
Extensive experiments demonstrate that CARVE consistently enhances performance,
achieving up to 75% improvement on open-source models. Our work provides
critical insights into the interplay between visual complexity and attention
mechanisms, offering an efficient pathway for improving visual reasoning with
contrasting attention.