Dr.V: Ein hierarchisches Wahrnehmungs-Zeit-Kognitions-Framework zur Diagnose von Video-Halluzinationen durch feinkörnige räumlich-zeitliche Verankerung
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
September 15, 2025
papers.authors: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Videomodellen (LVMs) haben das Verständnis von Videos erheblich verbessert. Diese Modelle leiden jedoch weiterhin unter Halluzinationen, bei denen Inhalte erzeugt werden, die im Widerspruch zu den Eingabevideos stehen. Um dieses Problem zu lösen, schlagen wir Dr.V vor, ein hierarchisches Framework, das auf der Wahrnehmungs-, Zeit- und kognitiven Ebene arbeitet, um Video-Halluzinationen durch fein abgestimmte räumlich-zeitliche Verankerung zu diagnostizieren. Dr.V besteht aus zwei Schlüsselkomponenten: einem Benchmark-Datensatz Dr.V-Bench und einem Satelliten-Video-Agenten Dr.V-Agent. Dr.V-Bench umfasst 10.000 Instanzen aus 4.974 Videos, die eine Vielzahl von Aufgaben abdecken, wobei jede Instanz mit detaillierten räumlich-zeitlichen Annotationen angereichert ist. Dr.V-Agent erkennt Halluzinationen in LVMs, indem systematisch eine fein abgestimmte räumlich-zeitliche Verankerung auf der Wahrnehmungs- und Zeitebene angewendet wird, gefolgt von einer kognitiven Ebene der Schlussfolgerung. Diese schrittweise Pipeline spiegelt das menschliche Verständnis von Videos wider und identifiziert Halluzinationen effektiv. Umfangreiche Experimente zeigen, dass Dr.V-Agent effektiv Halluzinationen diagnostiziert und gleichzeitig die Interpretierbarkeit und Zuverlässigkeit verbessert, was einen praktischen Leitfaden für robustes Video-Verständnis in realen Szenarien bietet. Alle unsere Daten und Codes sind unter https://github.com/Eurekaleo/Dr.V verfügbar.
English
Recent advancements in large video models (LVMs) have significantly enhance
video understanding. However, these models continue to suffer from
hallucinations, producing content that conflicts with input videos. To address
this issue, we propose Dr.V, a hierarchical framework covering perceptive,
temporal, and cognitive levels to diagnose video hallucination by fine-grained
spatial-temporal grounding. Dr.V comprises of two key components: a benchmark
dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes
10k instances drawn from 4,974 videos spanning diverse tasks, each enriched
with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in
LVMs by systematically applying fine-grained spatial-temporal grounding at the
perceptive and temporal levels, followed by cognitive level reasoning. This
step-by-step pipeline mirrors human-like video comprehension and effectively
identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is
effective in diagnosing hallucination while enhancing interpretability and
reliability, offering a practical blueprint for robust video understanding in
real-world scenarios. All our data and code are available at
https://github.com/Eurekaleo/Dr.V.