Correction de l'attention déséquilibrée pour atténuer l'hallucination contextuelle des grands modèles de vision-langage

Résumé

Les grands modèles de langage et de vision (LVLM) ont démontré des capacités remarquables dans la compréhension et la description du contenu visuel, atteignant des performances de pointe dans diverses tâches vision-langage. Cependant, ces modèles présentent fréquemment un comportement hallucinatoire, générant des descriptions contenant des objets ou des détails absents dans l'image d'entrée. Notre travail examine ce phénomène en analysant les schémas d'attention à travers les couches et les têtes du transformeur, révélant que les hallucinations découlent souvent d'une dégradation progressive de l'ancrage visuel dans les couches plus profondes. Nous proposons une nouvelle approche de modification de l'attention qui combine l'accentuation sélective des jetons et la modulation spécifique à la tête pour maintenir l'ancrage visuel tout au long du processus de génération. Notre méthode introduit deux composantes clés : (1) un mécanisme de sélection de jetons à double flux qui identifie et priorise à la fois les jetons visuels localement informatifs et spatialement significatifs, et (2) une stratégie de modulation spécifique à la tête de l'attention qui amplifie différemment le traitement de l'information visuelle en fonction de la sensibilité visuelle mesurée des têtes d'attention individuelles. À travers des expérimentations approfondies sur l'ensemble de données MSCOCO, nous démontrons que notre approche réduit les taux d'hallucination jusqu'à 62,3\% par rapport aux modèles de référence tout en maintenant des performances de tâche comparables. Notre analyse révèle que la modulation sélective des jetons à travers les têtes d'attention avec des niveaux de sensibilité visuelle variables peut améliorer significativement l'ancrage visuel sans nécessiter de reformation du modèle.

English

Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities in understanding and describing visual content, achieving state-of-the-art performance across various vision-language tasks. However, these models frequently exhibit hallucination behavior, where they generate descriptions containing objects or details absent in the input image. Our work investigates this phenomenon by analyzing attention patterns across transformer layers and heads, revealing that hallucinations often stem from progressive degradation of visual grounding in deeper layers. We propose a novel attention modification approach that combines selective token emphasis and head-specific modulation to maintain visual grounding throughout the generation process. Our method introduces two key components: (1) a dual-stream token selection mechanism that identifies and prioritizes both locally informative and spatially significant visual tokens, and (2) an attention head-specific modulation strategy that differentially amplifies visual information processing based on measured visual sensitivity of individual attention heads. Through extensive experimentation on the MSCOCO dataset, we demonstrate that our approach reduces hallucination rates by up to 62.3\% compared to baseline models while maintaining comparable task performance. Our analysis reveals that selectively modulating tokens across attention heads with varying levels of visual sensitivity can significantly improve visual grounding without requiring model retraining.