ChatPaper.aiChatPaper

Dr.V: 세분화된 시공간 기반을 통한 비디오 환각 진단을 위한 계층적 인지-시간-인지 프레임워크

Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

September 15, 2025
저자: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI

초록

대형 비디오 모델(LVMs)의 최근 발전은 비디오 이해를 크게 향상시켰습니다. 그러나 이러한 모델들은 여전히 환각(hallucination) 문제를 겪고 있으며, 입력 비디오와 상충되는 내용을 생성합니다. 이 문제를 해결하기 위해, 우리는 세밀한 시공간적 그라운딩을 통해 비디오 환각을 진단하는 지각적, 시간적, 인지적 수준을 아우르는 계층적 프레임워크인 Dr.V를 제안합니다. Dr.V는 두 가지 주요 구성 요소로 이루어져 있습니다: 벤치마크 데이터셋 Dr.V-Bench와 위성 비디오 에이전트 Dr.V-Agent입니다. Dr.V-Bench는 다양한 작업을 아우르는 4,974개의 비디오에서 추출한 10,000개의 인스턴스로 구성되며, 각각 상세한 시공간적 주석이 포함되어 있습니다. Dr.V-Agent는 지각적 및 시간적 수준에서 세밀한 시공간적 그라운딩을 체계적으로 적용한 후, 인지적 수준의 추론을 통해 LVMs의 환각을 탐지합니다. 이 단계별 파이프라인은 인간과 유사한 비디오 이해를 반영하며, 환각을 효과적으로 식별합니다. 광범위한 실험을 통해 Dr.V-Agent가 환각 진단에 효과적이며, 해석 가능성과 신뢰성을 향상시켜 실세계 시나리오에서 견고한 비디오 이해를 위한 실용적인 청사진을 제공함을 입증했습니다. 우리의 모든 데이터와 코드는 https://github.com/Eurekaleo/Dr.V에서 확인할 수 있습니다.
English
Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.
PDF12September 16, 2025