Anatomie einer Lüge: Ein mehrstufiges Diagnoseframework zur Nachverfolgung von Halluzinationen in visuell-sprachlichen Modellen

Zusammenfassung

Vision-Language Models (VLMs) neigen häufig zu "Halluzinationen" – der Generierung plausibel klingender, aber faktisch falscher Aussagen – was eine kritische Hürde für ihren vertrauenswürdigen Einsatz darstellt. In dieser Arbeit schlagen wir ein neues Paradigma zur Diagnose von Halluzinationen vor, indem wir sie von statischen Ausgabefehlern zu dynamischen Pathologien der rechnerischen Kognition eines Modells umdeuten. Unser Framework basiert auf einem normativen Prinzip der rechnerischen Rationalität, das es uns erlaubt, die Generierung eines VLM als dynamische kognitive Trajektorie zu modellieren. Wir entwickeln eine Reihe informationstheoretischer Sonden, die diese Trajektorie auf einen interpretierbaren, niedrigdimensionalen Kognitiven Zustandsraum projizieren. Unsere zentrale Entdeckung ist ein steuerndes Prinzip, das wir als geometrisch-informationstheoretische Dualität bezeichnen: Die geometrische Abnormalität einer kognitiven Trajektorie in diesem Raum ist grundsätzlich äquivalent zu ihrer hohen informationstheoretischen Überraschung (Surprisal). Die Halluzinationserkennung wird damit zu einem Problem der geometrischen Anomalieerkennung. Evaluierungen in verschiedenen Szenarien – von strengen binären Frage-Antwort-Aufgaben (POPE) und umfassendem Reasoning (MME) bis hin zu ungebundenem, freiem Captioning (MS-COCO) – zeigen, dass unser Framework state-of-the-art Leistung erzielt. Entscheidend ist, dass es mit hoher Effizienz unter schwacher Supervision arbeitet und selbst bei stark kontaminierten Kalibrierungsdaten äußerst robust bleibt. Dieser Ansatz ermöglicht eine kausale Zuordnung von Fehlern, indem beobachtbare Fehler auf bestimmte pathologische Zustände abgebildet werden: perzeptive Instabilität (gemessen durch Perzeptuelle Entropie), logisch-kausale Fehlfunktion (gemessen durch Inferenziellen Konflikt) und Entscheidungsunschärfe (gemessen durch Entscheidungsentropie). Letztendlich eröffnet dies einen Weg zum Aufbau von KI-Systemen, deren Entscheidungsfindung durch Design transparent, überprüfbar und diagnostizierbar ist.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomie einer Lüge: Ein mehrstufiges Diagnoseframework zur Nachverfolgung von Halluzinationen in visuell-sprachlichen Modellen

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Zusammenfassung

Support