Correction de l'attention déséquilibrée pour atténuer l'hallucination contextuelle des grands modèles de vision-langage
Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
January 21, 2025
Auteurs: Kazi Hasan Ibn Arif, Sajib Acharjee Dip, Khizar Hussain, Lang Zhang, Chris Thomas
cs.AI
Résumé
Les grands modèles de langage et de vision (LVLM) ont démontré des capacités remarquables dans la compréhension et la description du contenu visuel, atteignant des performances de pointe dans diverses tâches vision-langage. Cependant, ces modèles présentent fréquemment un comportement hallucinatoire, générant des descriptions contenant des objets ou des détails absents dans l'image d'entrée. Notre travail examine ce phénomène en analysant les schémas d'attention à travers les couches et les têtes du transformeur, révélant que les hallucinations découlent souvent d'une dégradation progressive de l'ancrage visuel dans les couches plus profondes. Nous proposons une nouvelle approche de modification de l'attention qui combine l'accentuation sélective des jetons et la modulation spécifique à la tête pour maintenir l'ancrage visuel tout au long du processus de génération. Notre méthode introduit deux composantes clés : (1) un mécanisme de sélection de jetons à double flux qui identifie et priorise à la fois les jetons visuels localement informatifs et spatialement significatifs, et (2) une stratégie de modulation spécifique à la tête de l'attention qui amplifie différemment le traitement de l'information visuelle en fonction de la sensibilité visuelle mesurée des têtes d'attention individuelles. À travers des expérimentations approfondies sur l'ensemble de données MSCOCO, nous démontrons que notre approche réduit les taux d'hallucination jusqu'à 62,3\% par rapport aux modèles de référence tout en maintenant des performances de tâche comparables. Notre analyse révèle que la modulation sélective des jetons à travers les têtes d'attention avec des niveaux de sensibilité visuelle variables peut améliorer significativement l'ancrage visuel sans nécessiter de reformation du modèle.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable
capabilities in understanding and describing visual content, achieving
state-of-the-art performance across various vision-language tasks. However,
these models frequently exhibit hallucination behavior, where they generate
descriptions containing objects or details absent in the input image. Our work
investigates this phenomenon by analyzing attention patterns across transformer
layers and heads, revealing that hallucinations often stem from progressive
degradation of visual grounding in deeper layers. We propose a novel attention
modification approach that combines selective token emphasis and head-specific
modulation to maintain visual grounding throughout the generation process. Our
method introduces two key components: (1) a dual-stream token selection
mechanism that identifies and prioritizes both locally informative and
spatially significant visual tokens, and (2) an attention head-specific
modulation strategy that differentially amplifies visual information processing
based on measured visual sensitivity of individual attention heads. Through
extensive experimentation on the MSCOCO dataset, we demonstrate that our
approach reduces hallucination rates by up to 62.3\% compared to baseline
models while maintaining comparable task performance. Our analysis reveals that
selectively modulating tokens across attention heads with varying levels of
visual sensitivity can significantly improve visual grounding without requiring
model retraining.Summary
AI-Generated Summary