시각-언어 모델의 환각 현상에 대한 온라인 자체 보정
Online Self-Calibration Against Hallucination in Vision-Language Models
May 1, 2026
저자: Minghui Chen, Chenxu Yang, Hengjie Zhu, Dayan Wu, Zheng Lin, Qingyi Si
cs.AI
초록
대규모 시각-언어 모델(LVLMs)은 종종 환각 현상(hallucination)을 겪으며, 입력 이미지에 존재하지 않는 시각적 세부 사항을 포함한 설명을 생성합니다. 최근의 선호도 정렬(preference alignment) 방법은 일반적으로 GPT와 같은 더 강력한 모델에서 추출한 감독(supervision)에 의존합니다. 그러나 이러한 오프라인 패러다임은 감독-인지 불일치(Supervision-Perception Mismatch)를 초래합니다. 즉, 학생 모델은 자신의 인지 능력을 넘어서는 미세한 세부 사항에 맞춰야 하므로, 보기보다는 추측하도록 학습됩니다. 온라인 학습을 위한 신뢰할 수 있는 자기 감독(self-supervision)을 얻기 위해, 우리는 LVLM 내에서 생성-판별 간극(Generative-Discriminative Gap)을 확인했습니다. 모델들은 개방형 생성(open-ended generation)보다 판별적 검증(discriminative verification)에서 더 높은 정확도를 보입니다. 이 능력을 활용하여, 우리는 몬테카를로 트리 탐색(Monte Carlo Tree Search)과 이중 세분성 보상 메커니즘(Dual-Granularity Reward Mechanism)을 통합하여 선호도 데이터를 구성하고 Direct Preference Optimization을 통해 모델을 반복적으로 개선하는 OSCAR(Online Self-CAlibRation) 프레임워크를 제안합니다. 광범위한 실험을 통해 OSCAR가 환각 벤치마크에서 최첨단 성능을 달성하면서도 일반적인 멀티모달 능력을 향상시킴을 입증합니다.
English
Large Vision-Language Models (LVLMs) often suffer from hallucinations, generating descriptions that include visual details absent from the input image. Recent preference alignment methods typically rely on supervision distilled from stronger models such as GPT. However, this offline paradigm introduces a Supervision-Perception Mismatch: the student model is forced to align with fine-grained details beyond its perceptual capacity, learning to guess rather than to see. To obtain reliable self-supervision for online learning, we identify a Generative-Discriminative Gap within LVLMs, where models exhibit higher accuracy on discriminative verification than open-ended generation. Leveraging this capability, we propose Online Self-CAlibRation (OSCAR), a framework that integrates Monte Carlo Tree Search with a Dual-Granularity Reward Mechanism to construct preference data and iteratively refines the model via Direct Preference Optimization. Extensive experiments demonstrate that OSCAR achieves state-of-the-art performance on hallucination benchmarks while improving general multimodal capabilities.