Über die epistemische Unsicherheit visueller Tokens bei Objekthalluzinationen in großen visuell-sprachlichen Modellen
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
October 10, 2025
papers.authors: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI
papers.abstract
Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs), die einen visuellen Encoder (Vision Encoder, VE) mit einem großen Sprachmodell kombinieren, haben bemerkenswerte Erfolge bei verschiedenen Aufgaben erzielt. Dennoch gibt es in LVLMs weiterhin entscheidende Herausforderungen, wie beispielsweise Objekthalluzinationen, bei denen Beschreibungen von Objekten generiert werden, die nicht im Eingabebild vorhanden sind. Hier argumentieren wir, dass unsichere visuelle Tokens innerhalb des VE ein Schlüsselfaktor sind, der zu Objekthalluzinationen beiträgt. Unsere statistische Analyse ergab, dass es positive Korrelationen zwischen visuellen Tokens mit hoher epistemischer Unsicherheit und dem Auftreten von Halluzinationen gibt. Darüber hinaus zeigen wir sowohl theoretisch als auch empirisch, dass visuelle Tokens in frühen VE-Schichten, die große Repräsentationsabweichungen unter kleinen adversarischen Störungen aufweisen, auf eine hohe epistemische Unsicherheit hinweisen. Basierend auf diesen Erkenntnissen schlagen wir eine einfache, aber effektive Strategie vor, um Objekthalluzinationen zu reduzieren, indem ausschließlich der VE modifiziert wird. Unsere Methode umfasst ein Proxy-Verfahren mit adversarischen Störungen zur effizienten Identifizierung unsicherer visueller Tokens sowie eine Methode, diese unsicheren visuellen Tokens während des Self-Attention-Prozesses in den mittleren Schichten des VE zu maskieren, wodurch ihr Einfluss auf die visuelle Kodierung unterdrückt und somit Halluzinationen gemildert werden. Umfangreiche Experimente zeigen, dass unsere Methode Objekthalluzinationen in LVLMs signifikant reduziert und synergetisch mit anderen bestehenden Techniken zusammenwirken kann.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE)
with a large language model, have achieved remarkable success across various
tasks. However, there are still crucial challenges in LVLMs such as object
hallucination, generating descriptions of objects that are not in the input
image. Here, we argue that uncertain visual tokens within the VE is a key
factor that contributes to object hallucination. Our statistical analysis found
that there are positive correlations between visual tokens with high epistemic
uncertainty and the occurrence of hallucinations. Furthermore, we show
theoretically and empirically that visual tokens in early VE layers that
exhibit large representation deviations under small adversarial perturbations
indicate high epistemic uncertainty. Based on these findings, we propose a
simple yet effective strategy to mitigate object hallucination by modifying the
VE only. Our method comprises a proxy method with adversarial perturbations for
identifying uncertain visual tokens efficiently and a method to mask these
uncertain visual tokens during the self-attention process in the middle layers
of the VE, suppressing their influence on visual encoding and thus alleviating
hallucinations. Extensive experiments show that our method significantly
reduces object hallucinations in LVLMs and can synergistically work with other
prior arts.