Over Epistemische Onzekerheid van Visuele Tokens voor Objecthallucinaties in Grote Visueel-Taalmodellen
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
October 10, 2025
Auteurs: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI
Samenvatting
Grote visueel-taalmodelen (LVLMs), die een visuele encoder (VE) integreren met een groot taalmodel, hebben opmerkelijke successen behaald in diverse taken. Er zijn echter nog steeds cruciale uitdagingen in LVLMs, zoals objecthallucinatie, waarbij beschrijvingen van objecten worden gegenereerd die niet in de invoerafbeelding aanwezig zijn. Hier stellen wij dat onzekere visuele tokens binnen de VE een belangrijke factor zijn die bijdraagt aan objecthallucinatie. Onze statistische analyse toonde aan dat er positieve correlaties bestaan tussen visuele tokens met een hoge epistemische onzekerheid en het optreden van hallucinaties. Bovendien tonen wij zowel theoretisch als empirisch aan dat visuele tokens in de vroege lagen van de VE die grote representatieafwijkingen vertonen onder kleine adversariële verstoringen, wijzen op een hoge epistemische onzekerheid. Op basis van deze bevindingen stellen wij een eenvoudige maar effectieve strategie voor om objecthallucinatie te verminderen door alleen de VE aan te passen. Onze methode omvat een proxymethode met adversariële verstoringen om onzekere visuele tokens efficiënt te identificeren en een methode om deze onzekere visuele tokens te maskeren tijdens het self-attentionproces in de middelste lagen van de VE, waardoor hun invloed op de visuele codering wordt onderdrukt en hallucinaties worden verminderd. Uitgebreide experimenten tonen aan dat onze methode objecthallucinaties in LVLMs aanzienlijk vermindert en synergetisch kan werken met andere bestaande technieken.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE)
with a large language model, have achieved remarkable success across various
tasks. However, there are still crucial challenges in LVLMs such as object
hallucination, generating descriptions of objects that are not in the input
image. Here, we argue that uncertain visual tokens within the VE is a key
factor that contributes to object hallucination. Our statistical analysis found
that there are positive correlations between visual tokens with high epistemic
uncertainty and the occurrence of hallucinations. Furthermore, we show
theoretically and empirically that visual tokens in early VE layers that
exhibit large representation deviations under small adversarial perturbations
indicate high epistemic uncertainty. Based on these findings, we propose a
simple yet effective strategy to mitigate object hallucination by modifying the
VE only. Our method comprises a proxy method with adversarial perturbations for
identifying uncertain visual tokens efficiently and a method to mask these
uncertain visual tokens during the self-attention process in the middle layers
of the VE, suppressing their influence on visual encoding and thus alleviating
hallucinations. Extensive experiments show that our method significantly
reduces object hallucinations in LVLMs and can synergistically work with other
prior arts.