ChatPaper.aiChatPaper

Dr.V: 細粒度の時空間的グラウンディングによるビデオ幻覚を診断するための階層的知覚-時間-認知フレームワーク

Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

September 15, 2025
著者: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI

要旨

大規模ビデオモデル(LVM)の最近の進展により、ビデオ理解が大幅に向上しました。しかし、これらのモデルは依然として幻覚(hallucination)に悩まされており、入力ビデオと矛盾する内容を生成することがあります。この問題に対処するため、我々はDr.Vを提案します。これは、知覚的、時間的、認知的レベルをカバーする階層的フレームワークであり、細粒度の時空間的グラウンディングを通じてビデオ幻覚を診断します。Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの主要コンポーネントで構成されています。Dr.V-Benchは、4,974本のビデオから抽出された10,000のインスタンスを含み、多様なタスクにわたって詳細な時空間的アノテーションが施されています。Dr.V-Agentは、知覚的および時間的レベルで細粒度の時空間的グラウンディングを体系的に適用し、その後認知的レベルの推論を行うことで、LVMの幻覚を検出します。この段階的なパイプラインは、人間のようなビデオ理解を模倣し、幻覚を効果的に特定します。大規模な実験により、Dr.V-Agentが幻覚の診断において有効であり、解釈可能性と信頼性を向上させることが実証されました。これにより、現実世界のシナリオにおける堅牢なビデオ理解のための実用的な青図を提供します。すべてのデータとコードはhttps://github.com/Eurekaleo/Dr.Vで公開されています。
English
Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.
PDF12September 16, 2025