Anatomía de una Mentira: Un Marco de Diagnóstico Multietapa para Rastrear Alucinaciones en Modelos de Visión y Lenguaje

Resumen

Los Modelos de Lenguaje-Visión (VLMs) frecuentemente "alucinan", es decir, generan afirmaciones plausibles pero factualmente incorrectas, lo que constituye una barrera crítica para su implementación confiable. En este trabajo, proponemos un nuevo paradigma para diagnosticar alucinaciones, reformulándolas como patologías dinámicas de la cognición computacional del modelo, en lugar de meros errores estáticos en la salida. Nuestro marco se fundamenta en un principio normativo de racionalidad computacional, lo que nos permite modelar la generación de un VLM como una trayectoria cognitiva dinámica. Diseñamos un conjunto de sondas basadas en teoría de la información que proyectan esta trayectoria en un Espacio de Estados Cognitivos interpretable y de baja dimensión. Nuestro descubrimiento central es un principio rector que denominamos dualidad geométrica-informacional: la anormalidad geométrica de una trayectoria cognitiva dentro de este espacio es fundamentalmente equivalente a su alto nivel de sorpresa (surprisal) informacional. La detección de alucinaciones se plantea así como un problema de detección de anomalías geométricas. Evaluado en diversos escenarios —desde preguntas-respuestas binarias rigurosas (POPE) y razonamiento comprehensivo (MME) hasta descripciones de imagen de respuesta abierta sin restricciones (MS-COCO)—, nuestro marco logra un rendimiento de vanguardia. Crucialmente, opera con alta eficiencia bajo supervisión débil y mantiene una gran robustez incluso cuando los datos de calibración están fuertemente contaminados. Este enfoque permite una atribución causal de los fallos, mapeando errores observables a estados patológicos distintos: inestabilidad perceptual (medida por la Entropía Perceptual), fallo lógico-causal (medido por el Conflicto Inferencial) y ambigüedad decisional (medida por la Entropía Decisional). En última instancia, esto abre un camino hacia la construcción de sistemas de IA cuyo razonamiento sea transparente, auditable y diagnosticable por diseño.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomía de una Mentira: Un Marco de Diagnóstico Multietapa para Rastrear Alucinaciones en Modelos de Visión y Lenguaje

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Resumen

Support