거짓말의 해부학: 시각-언어 모델의 환각 현상 추적을 위한 다단계 진단 프레임워크
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models
March 16, 2026
저자: Lexiang Xiong, Qi Li, Jingwen Ye, Xinchao Wang
cs.AI
초록
비전-언어 모델(VLM)은 종종 '환각' 현상, 즉 그럴듯하지만 사실적으로는 틀린 진술을 생성하는 문제를 보이며, 이는 신뢰할 수 있는 모델 배포에 있어 중요한 장벽으로 작용합니다. 본 연구에서는 환각 현상을 진단하는 새로운 패러다임을 제안하며, 이를 정적인 출력 오류가 아닌 모델의 계산적 인지 과정에서 발생하는 동적 병리 현상으로 재해석합니다. 우리의 프레임워크는 계산적 합리성이라는 규범적 원칙에 기반하여, VLM의 생성 과정을 동적 인지 궤적으로 모델링합니다. 우리는 이 궤도를 해석 가능한 저차원 인지 상태 공간에 투영하는 일련의 정보이론적 프로브를 설계했습니다. 핵심 발견은 기하-정보 이중성이라고 명명된 지배 원리로, 인지 궤적이 이 공간 내에서 보이는 기하학적 이상이 해당 궤적의 높은 정보이론적 놀람과 본질적으로 동등함을 확인했습니다. 이를 통해 환각 탐지는 기하학적 이상 탐지 문제로 귀결됩니다. 엄격한 이진 질의응답(POPE)과 포괄적 추론(MME)부터 제약이 없는 자유 형식 캡션 생성(MS-COCO)에 이르기까지 다양한 환경에서 평가한 결과, 우리의 프레임워크는 최첨단 성능을 달성했습니다. 무엇보다도 이 방법은 약한 감독 하에서 높은 효율성으로 작동하며, 교정 데이터가 심하게 오염된 경우에도 높은 강건성을 유지합니다. 이 접근법은 관찰 가능한 오류를 서로 다른 병리적 상태, 즉 지각적 불안정성(지각 엔트로피로 측정), 논리-인과적 실패(추론 충돌로 측정), 결정적 모호성(결정 엔트로피로 측정)에 매핑함으로써 실패 원인을 규명할 수 있게 합니다. 궁극적으로, 이는 추론 과정이 설계 단계부터 투명하고 감사 가능하며 진단 가능한 AI 시스템 구축으로 가는 길을 열어줍니다.
English
Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.