大規模視覚言語モデルにおける物体幻覚の視覚トークンの認識論的不確実性について
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
October 10, 2025
著者: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI
要旨
大規模視覚言語モデル(LVLM)は、視覚エンコーダ(VE)と大規模言語モデルを統合し、さまざまなタスクで顕著な成功を収めている。しかし、LVLMには依然として重要な課題が存在する。例えば、入力画像に存在しない物体の説明を生成する「物体幻覚」が挙げられる。本論文では、VE内の不確実な視覚トークンが物体幻覚の主要な要因であると主張する。統計的分析により、高い認識論的不確実性を持つ視覚トークンと幻覚の発生との間に正の相関があることが明らかになった。さらに、理論的および実証的に、初期のVE層における視覚トークンが、小さな敵対的摂動下で大きな表現偏差を示す場合、高い認識論的不確実性を示すことを示す。これらの知見に基づき、VEのみを修正することで物体幻覚を軽減するシンプルかつ効果的な戦略を提案する。提案手法は、不確実な視覚トークンを効率的に識別するための敵対的摂動を用いた代理手法と、VEの中間層におけるセルフアテンションプロセス中にこれらの不確実な視覚トークンをマスキングし、視覚エンコーディングへの影響を抑制することで幻覚を軽減する方法から構成される。大規模な実験により、提案手法がLVLMにおける物体幻覚を大幅に減少させ、他の先行技術と相乗的に機能することが示された。
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE)
with a large language model, have achieved remarkable success across various
tasks. However, there are still crucial challenges in LVLMs such as object
hallucination, generating descriptions of objects that are not in the input
image. Here, we argue that uncertain visual tokens within the VE is a key
factor that contributes to object hallucination. Our statistical analysis found
that there are positive correlations between visual tokens with high epistemic
uncertainty and the occurrence of hallucinations. Furthermore, we show
theoretically and empirically that visual tokens in early VE layers that
exhibit large representation deviations under small adversarial perturbations
indicate high epistemic uncertainty. Based on these findings, we propose a
simple yet effective strategy to mitigate object hallucination by modifying the
VE only. Our method comprises a proxy method with adversarial perturbations for
identifying uncertain visual tokens efficiently and a method to mask these
uncertain visual tokens during the self-attention process in the middle layers
of the VE, suppressing their influence on visual encoding and thus alleviating
hallucinations. Extensive experiments show that our method significantly
reduces object hallucinations in LVLMs and can synergistically work with other
prior arts.