Dr.V: Un Framework Gerarchico Percezione-Temporale-Cognizione per Diagnosticare Allucinazioni Video attraverso il Grounding Spazio-Temporale Fine-Granulare
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
September 15, 2025
Autori: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI
Abstract
I recenti progressi nei modelli video di grandi dimensioni (LVM) hanno significativamente migliorato la comprensione video. Tuttavia, questi modelli continuano a soffrire di allucinazioni, producendo contenuti in conflitto con i video di input. Per affrontare questo problema, proponiamo Dr.V, un framework gerarchico che copre livelli percettivi, temporali e cognitivi per diagnosticare le allucinazioni video attraverso un grounding spazio-temporale fine. Dr.V è composto da due componenti chiave: un dataset di riferimento, Dr.V-Bench, e un agente video satellite, Dr.V-Agent. Dr.V-Bench include 10k istanze tratte da 4.974 video che coprono diverse attività, ciascuna arricchita con annotazioni spazio-temporali dettagliate. Dr.V-Agent rileva le allucinazioni nei LVM applicando sistematicamente un grounding spazio-temporale fine a livello percettivo e temporale, seguito da un ragionamento a livello cognitivo. Questa pipeline passo-passo rispecchia la comprensione video simile a quella umana e identifica efficacemente le allucinazioni. Esperimenti estensivi dimostrano che Dr.V-Agent è efficace nel diagnosticare le allucinazioni, migliorando al contempo l'interpretabilità e l'affidabilità, offrendo una guida pratica per una robusta comprensione video in scenari reali. Tutti i nostri dati e il codice sono disponibili su https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance
video understanding. However, these models continue to suffer from
hallucinations, producing content that conflicts with input videos. To address
this issue, we propose Dr.V, a hierarchical framework covering perceptive,
temporal, and cognitive levels to diagnose video hallucination by fine-grained
spatial-temporal grounding. Dr.V comprises of two key components: a benchmark
dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes
10k instances drawn from 4,974 videos spanning diverse tasks, each enriched
with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in
LVMs by systematically applying fine-grained spatial-temporal grounding at the
perceptive and temporal levels, followed by cognitive level reasoning. This
step-by-step pipeline mirrors human-like video comprehension and effectively
identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is
effective in diagnosing hallucination while enhancing interpretability and
reliability, offering a practical blueprint for robust video understanding in
real-world scenarios. All our data and code are available at
https://github.com/Eurekaleo/Dr.V.