Dr.V : Un cadre hiérarchique Perception-Temporal-Cognition pour diagnostiquer les hallucinations vidéo par un ancrage spatio-temporel finement granulaire
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
September 15, 2025
papers.authors: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI
papers.abstract
Les récents progrès dans les modèles vidéo de grande envergure (LVMs) ont considérablement amélioré la compréhension vidéo. Cependant, ces modèles continuent de souffrir d’hallucinations, produisant des contenus en contradiction avec les vidéos d’entrée. Pour résoudre ce problème, nous proposons Dr.V, un cadre hiérarchique couvrant les niveaux perceptif, temporel et cognitif pour diagnostiquer les hallucinations vidéo grâce à un ancrage spatio-temporel fin. Dr.V se compose de deux éléments clés : un ensemble de données de référence, Dr.V-Bench, et un agent vidéo satellite, Dr.V-Agent. Dr.V-Bench comprend 10 000 instances extraites de 4 974 vidéos couvrant diverses tâches, chacune enrichie d’annotations spatio-temporelles détaillées. Dr.V-Agent détecte les hallucinations dans les LVMs en appliquant systématiquement un ancrage spatio-temporel fin aux niveaux perceptif et temporel, suivi d’un raisonnement au niveau cognitif. Ce pipeline étape par étape reflète une compréhension vidéo similaire à celle des humains et identifie efficacement les hallucinations. Des expériences approfondies démontrent que Dr.V-Agent est efficace pour diagnostiquer les hallucinations tout en améliorant l’interprétabilité et la fiabilité, offrant ainsi un plan pratique pour une compréhension vidéo robuste dans des scénarios réels. Toutes nos données et notre code sont disponibles à l’adresse https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance
video understanding. However, these models continue to suffer from
hallucinations, producing content that conflicts with input videos. To address
this issue, we propose Dr.V, a hierarchical framework covering perceptive,
temporal, and cognitive levels to diagnose video hallucination by fine-grained
spatial-temporal grounding. Dr.V comprises of two key components: a benchmark
dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes
10k instances drawn from 4,974 videos spanning diverse tasks, each enriched
with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in
LVMs by systematically applying fine-grained spatial-temporal grounding at the
perceptive and temporal levels, followed by cognitive level reasoning. This
step-by-step pipeline mirrors human-like video comprehension and effectively
identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is
effective in diagnosing hallucination while enhancing interpretability and
reliability, offering a practical blueprint for robust video understanding in
real-world scenarios. All our data and code are available at
https://github.com/Eurekaleo/Dr.V.