Анатомия лжи: Многоуровневая диагностическая система для выявления галлюцинаций в визуально-языковых моделях

Аннотация

Модели «визуальный язык» (VLMs) часто «галлюцинируют» — генерируют правдоподобные, но фактически неверные утверждения, что создает серьезное препятствие для их надежного применения. В данной работе мы предлагаем новую парадигму диагностики галлюцинаций, переосмысливая их не как статические ошибки вывода, а как динамические патологии вычислительного познания модели. Наша методология основана на нормативном принципе вычислительной рациональности, что позволяет нам моделировать генерацию VLM как динамическую когнитивную траекторию. Мы разрабатываем набор информационно-теоретических проб, которые проецируют эту траекторию на интерпретируемое низкоразмерное Когнитивное Пространство Состояний. Ключевое открытие — управляющий принцип, который мы называем геометрико-информационной двойственностью: геометрическая аномальность когнитивной траектории в этом пространстве фундаментально эквивалентна ее высокой информационно-теоретической неожиданности. Обнаружение галлюцинаций сводится к задаче поиска геометрических аномалий. При оценке в различных условиях — от строгих бинарных вопросно-ответных задач (POPE) и комплексных рассуждений (MME) до неограниченного генеративного описания (MS-COCO) — наша методология демонстрирует наилучшую производительность. Важно, что она работает высокоэффективно при слабом контроле и сохраняет высокую устойчивость даже при сильной загрязненности калибровочных данных. Этот подход позволяет проводить каузальную атрибуцию сбоев, сопоставляя наблюдаемые ошибки с различными патологическими состояниями: перцептивной нестабильностью (измеряемой Перцептивной Энтропией), логико-каузальными сбоями (измеряемыми Инференциальным Конфликтом) и decisional ambiguity (измеряемой Энтропией Решения). В конечном счете, это открывает путь к созданию ИИ-систем, чьи рассуждения по своей конструкции являются прозрачными, проверяемыми и диагностируемыми.

English

Vision-Language Models (VLMs) frequently "hallucinate" - generate plausible yet factually incorrect statements - posing a critical barrier to their trustworthy deployment. In this work, we propose a new paradigm for diagnosing hallucinations, recasting them from static output errors into dynamic pathologies of a model's computational cognition. Our framework is grounded in a normative principle of computational rationality, allowing us to model a VLM's generation as a dynamic cognitive trajectory. We design a suite of information-theoretic probes that project this trajectory onto an interpretable, low-dimensional Cognitive State Space. Our central discovery is a governing principle we term the geometric-information duality: a cognitive trajectory's geometric abnormality within this space is fundamentally equivalent to its high information-theoretic surprisal. Hallucination detection is counts as a geometric anomaly detection problem. Evaluated across diverse settings - from rigorous binary QA (POPE) and comprehensive reasoning (MME) to unconstrained open-ended captioning (MS-COCO) - our framework achieves state-of-the-art performance. Crucially, it operates with high efficiency under weak supervision and remains highly robust even when calibration data is heavily contaminated. This approach enables a causal attribution of failures, mapping observable errors to distinct pathological states: perceptual instability (measured by Perceptual Entropy), logical-causal failure (measured by Inferential Conflict), and decisional ambiguity (measured by Decision Entropy). Ultimately, this opens a path toward building AI systems whose reasoning is transparent, auditable, and diagnosable by design.

Анатомия лжи: Многоуровневая диагностическая система для выявления галлюцинаций в визуально-языковых моделях

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Аннотация

Support