Anatomia di una Menzogna: Un Framework Diagnostico Multi-Stadio per Rintracciare le Allucinazioni nei Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLM) spesso "allucinano" - generano affermazioni plausibili ma fattualmente scorrette - rappresentando una barriera critica per il loro impiego affidabile. In questo lavoro, proponiamo un nuovo paradigma per diagnosticare le allucinazioni, ricontestualizzandole da errori statici dell'output a patologie dinamiche della cognizione computazionale del modello. Il nostro framework si basa su un principio normativo di razionalità computazionale, permettendoci di modellare la generazione di un VLM come una traiettoria cognitiva dinamica. Progettiamo una serie di sonde information-theoretic che proiettano questa traiettoria in uno Spazio degli Stati Cognitivi interpretabile e a bassa dimensionalità. La nostra scoperta centrale è un principio regolatore che definiamo dualità geometrico-informativa: l'anormalità geometrica di una traiettoria cognitiva all'interno di questo spazio è fondamentalmente equivalente al suo alto surprisal information-theoretic. Il rilevamento delle allucinazioni si riduce a un problema di rilevamento di anomalie geometriche. Valutato in diversi contesti - da rigorosi QA binari (POPE) e ragionamento comprensivo (MME) a captioning open-ended senza vincoli (MS-COCO) - il nostro framework raggiunge prestazioni allo stato dell'arte. Crucialmente, opera con alta efficienza sotto weak supervision e rimane altamente robusto anche quando i dati di calibrazione sono pesantemente contaminati. Questo approccio consente un'attribuzione causale dei fallimenti, mappando errori osservabili a distinti stati patologici: instabilità percettiva (misurata dall'Entropia Percettiva), fallimento logico-causale (misurato dal Conflitto Inferenziale) e ambiguità decisionale (misurata dall'Entropia Decisionale). In ultima analisi, questo apre la strada verso la costruzione di sistemi di IA il cui ragionamento è per progettazione trasparente, verificabile e diagnosticabile.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomia di una Menzogna: Un Framework Diagnostico Multi-Stadio per Rintracciare le Allucinazioni nei Modelli Visione-Linguaggio

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Abstract

Support