Anatomie d'un mensonge : Un cadre de diagnostic multi-étapes pour tracer les hallucinations dans les modèles vision-langage

Résumé

Les modèles vision-langage (VLM) produisent fréquemment des "hallucinations" - des énoncés plausibles mais factuellement incorrects - ce qui constitue un obstacle majeur à leur déploiement fiable. Dans ce travail, nous proposons un nouveau paradigme pour diagnostiquer les hallucinations, en les reconsidérant non plus comme des erreurs de sortie statiques, mais comme des pathologies dynamiques de la cognition computationnelle du modèle. Notre cadre s'appuie sur un principe normatif de rationalité computationnelle, nous permettant de modéliser la génération d'un VLM comme une trajectoire cognitive dynamique. Nous concevons une série de sondes informationnelles qui projettent cette trajectoire dans un Espace d'État Cognitif interprétable et de faible dimension. Notre découverte centrale est un principe directeur que nous nommons dualité géométrico-informationnelle : l'anormalité géométrique d'une trajectoire cognitive dans cet espace est fondamentalement équivalente à sa surprisale informationnelle élevée. La détection d'hallucinations devient ainsi un problème de détection d'anomalies géométriques. Évalué dans divers contextes - allant du question-réponse binaire rigoureux (POPE) et du raisonnement complet (MME) à la génération de légendes libre (MS-COCO) - notre cadre obtient des performances à l'état de l'art. Surtout, il fonctionne avec une grande efficacité sous supervision faible et reste très robuste même lorsque les données d'étalonnage sont fortement contaminées. Cette approche permet une attribution causale des échecs, en cartographiant les erreurs observables vers des états pathologiques distincts : instabilité perceptuelle (mesurée par l'Entropie Perceptive), défaillance logico-causale (mesurée par le Conflit Inférentiel) et ambiguïté décisionnelle (mesurée par l'Entropie Décisionnelle). À terme, cela ouvre une voie vers la conception de systèmes d'IA dont le raisonnement est par essence transparent, vérifiable et diagnostiquable.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomie d'un mensonge : Un cadre de diagnostic multi-étapes pour tracer les hallucinations dans les modèles vision-langage

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Résumé

Support