Focalisation par Attention Contrastive : Amélioration du Raisonnement Visuel des Modèles de Langage Visuel
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
September 8, 2025
papers.authors: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Baolong Bi, Xuanshan Zhou, Jiayu Yao, Jiafeng Guo, Xueqi Cheng
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont démontré un succès remarquable dans diverses tâches visuelles, mais leurs performances se dégradent dans des environnements visuels complexes. Bien que les approches d'amélioration existantes nécessitent un entraînement supplémentaire, reposent sur des outils de segmentation externes ou opèrent à des niveaux grossiers, elles négligent la capacité intrinsèque des VLMs. Pour combler cette lacune, nous étudions les schémas d'attention des VLMs et découvrons que : (1) la complexité visuelle est fortement corrélée à l'entropie de l'attention, affectant négativement les performances de raisonnement ; (2) l'attention s'affine progressivement, passant d'un balayage global dans les couches superficielles à une convergence focalisée dans les couches profondes, avec un degré de convergence déterminé par la complexité visuelle. (3) Théoriquement, nous prouvons que le contraste des cartes d'attention entre les requêtes générales et les requêtes spécifiques à une tâche permet de décomposer le signal visuel en composantes de signaux sémantiques et de bruit visuel. Sur la base de ces observations, nous proposons le Raffinement d'Attention Contrastive pour l'Amélioration Visuelle (CARVE), une méthode sans entraînement qui extrait les signaux visuels pertinents pour la tâche par contraste d'attention au niveau des pixels. Des expériences approfondies démontrent que CARVE améliore systématiquement les performances, atteignant jusqu'à 75 % d'amélioration sur des modèles open-source. Notre travail fournit des insights critiques sur l'interaction entre la complexité visuelle et les mécanismes d'attention, offrant une voie efficace pour améliorer le raisonnement visuel grâce au contraste d'attention.
English
Vision-Language Models (VLMs) have demonstrated remarkable success across
diverse visual tasks, yet their performance degrades in complex visual
environments. While existing enhancement approaches require additional
training, rely on external segmentation tools, or operate at coarse-grained
levels, they overlook the innate ability within VLMs. To bridge this gap, we
investigate VLMs' attention patterns and discover that: (1) visual complexity
strongly correlates with attention entropy, negatively impacting reasoning
performance; (2) attention progressively refines from global scanning in
shallow layers to focused convergence in deeper layers, with convergence degree
determined by visual complexity. (3) Theoretically, we prove that the contrast
of attention maps between general queries and task-specific queries enables the
decomposition of visual signal into semantic signals and visual noise
components. Building on these insights, we propose Contrastive Attention
Refinement for Visual Enhancement (CARVE), a training-free method that extracts
task-relevant visual signals through attention contrasting at the pixel level.
Extensive experiments demonstrate that CARVE consistently enhances performance,
achieving up to 75% improvement on open-source models. Our work provides
critical insights into the interplay between visual complexity and attention
mechanisms, offering an efficient pathway for improving visual reasoning with
contrasting attention.