Dr.V: Un Marco Jerárquico de Percepción-Temporal-Cognición para Diagnosticar Alucinaciones en Videos mediante la Fundamentación Espacio-Temporal de Grano Fino
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
September 15, 2025
Autores: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI
Resumen
Los recientes avances en los modelos de video de gran escala (LVMs, por sus siglas en inglés) han mejorado significativamente la comprensión de video. Sin embargo, estos modelos continúan sufriendo de alucinaciones, generando contenido que entra en conflicto con los videos de entrada. Para abordar este problema, proponemos Dr.V, un marco jerárquico que abarca niveles perceptivos, temporales y cognitivos para diagnosticar la alucinación en videos mediante una anclaje espacio-temporal de grano fino. Dr.V consta de dos componentes clave: un conjunto de datos de referencia, Dr.V-Bench, y un agente de video satélite, Dr.V-Agent. Dr.V-Bench incluye 10k instancias extraídas de 4,974 videos que abarcan diversas tareas, cada una enriquecida con anotaciones espacio-temporales detalladas. Dr.V-Agent detecta alucinaciones en los LVMs aplicando sistemáticamente un anclaje espacio-temporal de grano fino en los niveles perceptivo y temporal, seguido de un razonamiento a nivel cognitivo. Este proceso paso a paso imita la comprensión humana de los videos e identifica eficazmente las alucinaciones. Experimentos extensivos demuestran que Dr.V-Agent es efectivo en el diagnóstico de alucinaciones mientras mejora la interpretabilidad y la confiabilidad, ofreciendo un plan práctico para una comprensión robusta de videos en escenarios del mundo real. Todos nuestros datos y código están disponibles en https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance
video understanding. However, these models continue to suffer from
hallucinations, producing content that conflicts with input videos. To address
this issue, we propose Dr.V, a hierarchical framework covering perceptive,
temporal, and cognitive levels to diagnose video hallucination by fine-grained
spatial-temporal grounding. Dr.V comprises of two key components: a benchmark
dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes
10k instances drawn from 4,974 videos spanning diverse tasks, each enriched
with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in
LVMs by systematically applying fine-grained spatial-temporal grounding at the
perceptive and temporal levels, followed by cognitive level reasoning. This
step-by-step pipeline mirrors human-like video comprehension and effectively
identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is
effective in diagnosing hallucination while enhancing interpretability and
reliability, offering a practical blueprint for robust video understanding in
real-world scenarios. All our data and code are available at
https://github.com/Eurekaleo/Dr.V.