ChatPaper.aiChatPaper

Sobre la Incertidumbre Epistémica de los Tokens Visuales en las Alucinaciones de Objetos en Modelos de Lenguaje y Visión a Gran Escala

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

October 10, 2025
Autores: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI

Resumen

Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés), que integran un codificador visual (VE) con un modelo de lenguaje grande, han logrado un éxito notable en diversas tareas. Sin embargo, aún existen desafíos cruciales en los LVLMs, como la alucinación de objetos, que consiste en generar descripciones de objetos que no están presentes en la imagen de entrada. Aquí, argumentamos que los tokens visuales inciertos dentro del VE son un factor clave que contribuye a la alucinación de objetos. Nuestro análisis estadístico encontró que existen correlaciones positivas entre los tokens visuales con alta incertidumbre epistémica y la ocurrencia de alucinaciones. Además, demostramos teórica y empíricamente que los tokens visuales en las capas iniciales del VE que exhiben grandes desviaciones en su representación bajo pequeñas perturbaciones adversarias indican una alta incertidumbre epistémica. Basándonos en estos hallazgos, proponemos una estrategia simple pero efectiva para mitigar la alucinación de objetos modificando únicamente el VE. Nuestro método incluye un método proxy con perturbaciones adversarias para identificar eficientemente los tokens visuales inciertos y un método para enmascarar estos tokens visuales inciertos durante el proceso de auto-atención en las capas intermedias del VE, suprimiendo su influencia en la codificación visual y, por lo tanto, aliviando las alucinaciones. Experimentos extensos muestran que nuestro método reduce significativamente las alucinaciones de objetos en los LVLMs y puede funcionar de manera sinérgica con otras técnicas previas.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE) with a large language model, have achieved remarkable success across various tasks. However, there are still crucial challenges in LVLMs such as object hallucination, generating descriptions of objects that are not in the input image. Here, we argue that uncertain visual tokens within the VE is a key factor that contributes to object hallucination. Our statistical analysis found that there are positive correlations between visual tokens with high epistemic uncertainty and the occurrence of hallucinations. Furthermore, we show theoretically and empirically that visual tokens in early VE layers that exhibit large representation deviations under small adversarial perturbations indicate high epistemic uncertainty. Based on these findings, we propose a simple yet effective strategy to mitigate object hallucination by modifying the VE only. Our method comprises a proxy method with adversarial perturbations for identifying uncertain visual tokens efficiently and a method to mask these uncertain visual tokens during the self-attention process in the middle layers of the VE, suppressing their influence on visual encoding and thus alleviating hallucinations. Extensive experiments show that our method significantly reduces object hallucinations in LVLMs and can synergistically work with other prior arts.
PDF142October 14, 2025