不均衡な注意を修正して、大規模なビジョン言語モデルにおける文脈内幻覚を緩和する
Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model
January 21, 2025
著者: Kazi Hasan Ibn Arif, Sajib Acharjee Dip, Khizar Hussain, Lang Zhang, Chris Thomas
cs.AI
要旨
大規模ビジョン言語モデル(LVLMs)は、視覚コンテンツの理解と記述において顕著な能力を示し、さまざまなビジョン言語タスクで最先端のパフォーマンスを達成しています。しかし、これらのモデルはしばしば幻覚行動を示し、入力画像に存在しないオブジェクトや詳細を含む記述を生成します。本研究では、トランスフォーマーレイヤーとヘッド全体での注意パターンを分析することによって、幻覚はしばしばより深いレイヤーでの視覚の基盤の進行的な劣化から生じることを明らかにしました。我々は、視覚の基盤を生成プロセス全体で維持するために、選択的トークン強調とヘッド固有の調整を組み合わせた新しい注意修正アプローチを提案しています。我々の手法は、次の2つの主要なコンポーネントを導入します:(1)局所的に情報提供があり、空間的に重要な視覚的トークンを識別し優先順位付けするデュアルストリームトークン選択メカニズム、および(2)個々の注意ヘッドの測定された視覚感受性に基づいて視覚情報処理を差別的に増幅する注意ヘッド固有の調整戦略。MSCOCOデータセットでの広範な実験を通じて、我々のアプローチが、基準モデルと比較して幻覚発生率を最大62.3%削減し、同等のタスクパフォーマンスを維持することを示しました。我々の分析は、視覚感受性の異なる注意ヘッド全体でトークンを選択的に調整することが、モデルの再トレーニングを必要とせずに視覚の基盤を大幅に改善できることを示しています。
English
Large Vision Language Models (LVLMs) have demonstrated remarkable
capabilities in understanding and describing visual content, achieving
state-of-the-art performance across various vision-language tasks. However,
these models frequently exhibit hallucination behavior, where they generate
descriptions containing objects or details absent in the input image. Our work
investigates this phenomenon by analyzing attention patterns across transformer
layers and heads, revealing that hallucinations often stem from progressive
degradation of visual grounding in deeper layers. We propose a novel attention
modification approach that combines selective token emphasis and head-specific
modulation to maintain visual grounding throughout the generation process. Our
method introduces two key components: (1) a dual-stream token selection
mechanism that identifies and prioritizes both locally informative and
spatially significant visual tokens, and (2) an attention head-specific
modulation strategy that differentially amplifies visual information processing
based on measured visual sensitivity of individual attention heads. Through
extensive experimentation on the MSCOCO dataset, we demonstrate that our
approach reduces hallucination rates by up to 62.3\% compared to baseline
models while maintaining comparable task performance. Our analysis reveals that
selectively modulating tokens across attention heads with varying levels of
visual sensitivity can significantly improve visual grounding without requiring
model retraining.Summary
AI-Generated Summary