ChatPaper.aiChatPaper

Dr.V: Een Hiërarchisch Waarneming-Tijd-Cognitie Kader voor het Diagnosticeren van Video-Hallucinaties door Fijnmazige Ruimte-Tijd Verankering

Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

September 15, 2025
Auteurs: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI

Samenvatting

Recente vooruitgang in grote videomodellen (LVMs) heeft het begrip van video's aanzienlijk verbeterd. Deze modellen blijven echter last houden van hallucinaties, waarbij ze inhoud produceren die in strijd is met de invoervideo's. Om dit probleem aan te pakken, stellen we Dr.V voor, een hiërarchisch raamwerk dat perceptieve, temporele en cognitieve niveaus omvat om videohallucinaties te diagnosticeren door middel van fijnmazige ruimtelijk-temporele verankering. Dr.V bestaat uit twee belangrijke componenten: een benchmarkdataset Dr.V-Bench en een satellietvideo-agent Dr.V-Agent. Dr.V-Bench bevat 10.000 instanties afkomstig uit 4.974 video's die diverse taken bestrijken, elk verrijkt met gedetailleerde ruimtelijk-temporele annotaties. Dr.V-Agent detecteert hallucinaties in LVMs door systematisch fijnmazige ruimtelijk-temporele verankering toe te passen op perceptief en temporeel niveau, gevolgd door redenering op cognitief niveau. Deze stapsgewijze pipeline bootst menselijk videobegrip na en identificeert hallucinaties effectief. Uitgebreide experimenten tonen aan dat Dr.V-Agent effectief is in het diagnosticeren van hallucinaties, terwijl het de interpreteerbaarheid en betrouwbaarheid verbetert, en biedt een praktisch blauwdruk voor robuust videobegrip in realistische scenario's. Al onze data en code zijn beschikbaar op https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.
PDF12September 16, 2025