Anatomia de uma Mentira: Um Framework de Diagnóstico Multiestágio para Rastrear Alucinações em Modelos de Linguagem Visual

Resumo

Os Modelos de Visão e Linguagem (VLMs) frequentemente "alucinam" - geram afirmações plausíveis, mas factualmente incorretas - representando uma barreira crítica para a sua implantação confiável. Neste trabalho, propomos um novo paradigma para diagnosticar alucinações, reformulando-as de erros estáticos de saída para patologias dinâmicas da cognição computacional do modelo. Nosso quadro está fundamentado num princípio normativo de racionalidade computacional, permitindo-nos modelar a geração de um VLM como uma trajetória cognitiva dinâmica. Projetamos um conjunto de sondas de teoria da informação que projetam esta trajetória num Espaço de Estado Cognitivo interpretável e de baixa dimensão. Nossa descoberta central é um princípio regulador que denominamos dualidade geométrica-informacional: a anormalidade geométrica de uma trajetória cognitiva dentro deste espaço é fundamentalmente equivalente ao seu alto surpreendimento (surprisal) informacional. A detecção de alucinação é tratada como um problema de detecção de anomalias geométricas. Avaliado em diversos contextos - desde QA binário rigoroso (POPE) e raciocínio abrangente (MME) até legendagem (captioning) de resposta aberta sem restrições (MS-COCO) - nosso quadro alcança desempenho de ponta. Crucialmente, opera com alta eficiência sob supervisão fraca e mantém-se altamente robusto mesmo quando os dados de calibração estão fortemente contaminados. Esta abordagem permite uma atribuição causal de falhas, mapeando erros observáveis para estados patológicos distintos: instabilidade perceptual (medida pela Entropia Perceptual), falha lógico-causal (medida pelo Conflito Inferencial) e ambiguidade decisional (medida pela Entropia Decisória). Em última análise, isto abre um caminho para a construção de sistemas de IA cujo raciocínio seja transparente, auditável e diagnosticável por projeto.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Anatomia de uma Mentira: Um Framework de Diagnóstico Multiestágio para Rastrear Alucinações em Modelos de Linguagem Visual

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Resumo

Support