ChatPaper.aiChatPaper

대형 시각-언어 모델에서 객체 환각을 위한 시각 토큰의 인식론적 불확실성에 관하여

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

October 10, 2025
저자: Hoigi Seo, Dong Un Kang, Hyunjin Cho, Joohoon Lee, Se Young Chun
cs.AI

초록

대규모 시각-언어 모델(LVLMs)은 시각 인코더(VE)와 대규모 언어 모델을 통합하여 다양한 작업에서 주목할 만한 성과를 거두었습니다. 그러나 LVLMs에는 여전히 중요한 과제가 존재하는데, 그 중 하나는 입력 이미지에 존재하지 않는 객체에 대한 설명을 생성하는 객체 환각(object hallucination) 현상입니다. 본 연구에서는 VE 내의 불확실한 시각 토큰이 객체 환각에 기여하는 주요 요인임을 주장합니다. 통계적 분석 결과, 높은 인식론적 불확실성을 보이는 시각 토큰과 환각 발생 사이에 양의 상관관계가 있음을 발견했습니다. 또한, 이론적 및 실증적으로, 작은 적대적 섭동(adversarial perturbation) 하에서 큰 표현 편차를 보이는 초기 VE 레이어의 시각 토큰이 높은 인식론적 불확실성을 나타냄을 확인했습니다. 이러한 발견을 바탕으로, VE만을 수정하여 객체 환각을 완화하는 간단하면서도 효과적인 전략을 제안합니다. 우리의 방법은 불확실한 시각 토큰을 효율적으로 식별하기 위한 적대적 섭동을 활용한 프록시 방법과, VE의 중간 레이어에서의 자기 주의(self-attention) 과정 중에 이러한 불확실한 시각 토큰을 마스킹하여 시각 인코딩에 미치는 영향을 억제함으로써 환각을 완화하는 방법으로 구성됩니다. 광범위한 실험을 통해 우리의 방법이 LVLMs에서 객체 환각을 크게 줄일 수 있으며, 다른 기존 기술과 시너지 효과를 낼 수 있음을 입증했습니다.
English
Large vision-language models (LVLMs), which integrate a vision encoder (VE) with a large language model, have achieved remarkable success across various tasks. However, there are still crucial challenges in LVLMs such as object hallucination, generating descriptions of objects that are not in the input image. Here, we argue that uncertain visual tokens within the VE is a key factor that contributes to object hallucination. Our statistical analysis found that there are positive correlations between visual tokens with high epistemic uncertainty and the occurrence of hallucinations. Furthermore, we show theoretically and empirically that visual tokens in early VE layers that exhibit large representation deviations under small adversarial perturbations indicate high epistemic uncertainty. Based on these findings, we propose a simple yet effective strategy to mitigate object hallucination by modifying the VE only. Our method comprises a proxy method with adversarial perturbations for identifying uncertain visual tokens efficiently and a method to mask these uncertain visual tokens during the self-attention process in the middle layers of the VE, suppressing their influence on visual encoding and thus alleviating hallucinations. Extensive experiments show that our method significantly reduces object hallucinations in LVLMs and can synergistically work with other prior arts.
PDF142October 14, 2025