Sur l'incertitude épistémique des tokens visuels dans les hallucinations d'objets des grands modèles vision-langage
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
October 10, 2025
papers.authors: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI
papers.abstract
Les grands modèles vision-langage (LVLMs), qui intègrent un encodeur visuel (VE) avec un grand modèle de langage, ont obtenu un succès remarquable dans diverses tâches. Cependant, des défis cruciaux subsistent dans les LVLMs, tels que l'hallucination d'objets, c'est-à-dire la génération de descriptions d'objets qui ne sont pas présents dans l'image d'entrée. Nous soutenons ici que les tokens visuels incertains au sein du VE constituent un facteur clé contribuant à l'hallucination d'objets. Notre analyse statistique a révélé qu'il existe des corrélations positives entre les tokens visuels présentant une incertitude épistémique élevée et l'occurrence d'hallucinations. De plus, nous démontrons théoriquement et empiriquement que les tokens visuels dans les premières couches du VE qui présentent de grandes déviations de représentation sous de petites perturbations adverses indiquent une incertitude épistémique élevée. Sur la base de ces observations, nous proposons une stratégie simple mais efficace pour atténuer l'hallucination d'objets en modifiant uniquement le VE. Notre méthode comprend une méthode proxy avec des perturbations adverses pour identifier efficacement les tokens visuels incertains et une méthode pour masquer ces tokens visuels incertains pendant le processus d'auto-attention dans les couches intermédiaires du VE, supprimant ainsi leur influence sur l'encodage visuel et atténuant les hallucinations. Des expériences approfondies montrent que notre méthode réduit significativement les hallucinations d'objets dans les LVLMs et peut fonctionner de manière synergique avec d'autres techniques existantes.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE)
with a large language model, have achieved remarkable success across various
tasks. However, there are still crucial challenges in LVLMs such as object
hallucination, generating descriptions of objects that are not in the input
image. Here, we argue that uncertain visual tokens within the VE is a key
factor that contributes to object hallucination. Our statistical analysis found
that there are positive correlations between visual tokens with high epistemic
uncertainty and the occurrence of hallucinations. Furthermore, we show
theoretically and empirically that visual tokens in early VE layers that
exhibit large representation deviations under small adversarial perturbations
indicate high epistemic uncertainty. Based on these findings, we propose a
simple yet effective strategy to mitigate object hallucination by modifying the
VE only. Our method comprises a proxy method with adversarial perturbations for
identifying uncertain visual tokens efficiently and a method to mask these
uncertain visual tokens during the self-attention process in the middle layers
of the VE, suppressing their influence on visual encoding and thus alleviating
hallucinations. Extensive experiments show that our method significantly
reduces object hallucinations in LVLMs and can synergistically work with other
prior arts.