Anatomie van een Leugen: Een Meerstaps Diagnostisch Kader voor het Opsporen van Hallucinaties in Visueel-Taalmodellen

Samenvatting

Vision-Language Models (VLMs) vertonen vaak "hallucinaties" - ze genereren plausibel klinkende maar feitelijk onjuiste uitspraken - wat een kritieke belemmering vormt voor hun betrouwbare inzet. In dit werk stellen we een nieuw paradigma voor voor het diagnosticeren van hallucinaties, waarbij we ze herformuleren van statische outputfouten naar dynamische pathologieën van de computationele cognitie van een model. Ons raamwerk is gegrondvest in een normatief principe van computationele rationaliteit, waardoor we de generatie van een VLM kunnen modelleren als een dynamische cognitieve trajectorie. We ontwerpen een reeks informatie-theoretische probes die dit traject projecteren op een interpreteerbare, laagdimensionale Cognitieve Toestandsruimte. Onze centrale ontdekking is een sturend principe dat we de *geometrisch-informationele dualiteit* noemen: de geometrische abnormaliteit van een cognitief traject binnen deze ruimte is fundamenteel equivalent aan zijn hoge informatie-theoretische verrassingswaarde. Hallucinatiedetectie wordt hierdoor een probleem van geometrische anomaliedetectie. Geëvalueerd in diverse settings - van rigoureuze binaire vraag-antwoordtaken (POPE) en uitgebreid redeneren (MME) tot onbeperkte open-einde bijschrijving (MS-COCO) - behaalt ons raamwerk state-of-the-art prestaties. Cruciaal is dat het zeer efficiënt opereert onder zwak toezicht en zeer robuust blijft, zelfs wanneer kalibratiedata sterk verontreinigd is. Deze aanpak maakt een causale toeschrijving van fouten mogelijk, waarbij waarneembare fouten worden gemapt naar verschillende pathologische toestanden: perceptuele instabiliteit (gemeten door Perceptuele Entropie), logisch-causaal falen (gemeten door Inferentieel Conflict) en beslissingsambiguïteit (gemeten door Beslissingsentropie). Uiteindelijk opent dit een weg naar het bouwen van AI-systemen waarvan de redenering van ontwerp af aan transparant, controleerbaar en diagnoseerbaar is.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomie van een Leugen: Een Meerstaps Diagnostisch Kader voor het Opsporen van Hallucinaties in Visueel-Taalmodellen

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Samenvatting

Support