О эпистемической неопределенности визуальных токенов для галлюцинаций объектов в крупных визуально-языковых моделях
On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models
October 10, 2025
Авторы: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI
Аннотация
Крупные модели, объединяющие обработку изображений и текста (LVLMs), которые интегрируют визуальный кодировщик (VE) с большой языковой моделью, достигли значительных успехов в решении различных задач. Однако в LVLMs по-прежнему существуют важные проблемы, такие как галлюцинации объектов, когда модель генерирует описания объектов, отсутствующих на входном изображении. В данной работе мы утверждаем, что неопределенные визуальные токены внутри VE являются ключевым фактором, способствующим возникновению галлюцинаций объектов. Наш статистический анализ показал, что существует положительная корреляция между визуальными токенами с высокой эпистемической неопределенностью и частотой возникновения галлюцинаций. Кроме того, мы теоретически и эмпирически демонстрируем, что визуальные токены в ранних слоях VE, которые демонстрируют значительные отклонения представлений при малых адверсарных возмущениях, указывают на высокую эпистемическую неопределенность. На основе этих выводов мы предлагаем простую, но эффективную стратегию для снижения галлюцинаций объектов, модифицируя только VE. Наш метод включает прокси-метод с адверсарными возмущениями для эффективного выявления неопределенных визуальных токенов и метод маскирования этих неопределенных визуальных токенов в процессе самовнимания в средних слоях VE, что подавляет их влияние на визуальное кодирование и, таким образом, уменьшает галлюцинации. Многочисленные эксперименты показывают, что наш метод значительно снижает галлюцинации объектов в LVLMs и может синергетически работать с другими существующими подходами.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE)
with a large language model, have achieved remarkable success across various
tasks. However, there are still crucial challenges in LVLMs such as object
hallucination, generating descriptions of objects that are not in the input
image. Here, we argue that uncertain visual tokens within the VE is a key
factor that contributes to object hallucination. Our statistical analysis found
that there are positive correlations between visual tokens with high epistemic
uncertainty and the occurrence of hallucinations. Furthermore, we show
theoretically and empirically that visual tokens in early VE layers that
exhibit large representation deviations under small adversarial perturbations
indicate high epistemic uncertainty. Based on these findings, we propose a
simple yet effective strategy to mitigate object hallucination by modifying the
VE only. Our method comprises a proxy method with adversarial perturbations for
identifying uncertain visual tokens efficiently and a method to mask these
uncertain visual tokens during the self-attention process in the middle layers
of the VE, suppressing their influence on visual encoding and thus alleviating
hallucinations. Extensive experiments show that our method significantly
reduces object hallucinations in LVLMs and can synergistically work with other
prior arts.