Dr.V: Иерархическая система восприятия-времени-познания для диагностики видеогаллюцинаций через детализированное пространственно-временное заземление
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
September 15, 2025
Авторы: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI
Аннотация
Последние достижения в области крупных видео-моделей (LVMs) значительно улучшили понимание видео. Однако эти модели по-прежнему страдают от галлюцинаций, создавая контент, который противоречит входным видео. Для решения этой проблемы мы предлагаем Dr.V — иерархическую структуру, охватывающую перцептивный, временной и когнитивный уровни, для диагностики видео-галлюцинаций с помощью детального пространственно-временного анализа. Dr.V состоит из двух ключевых компонентов: эталонного набора данных Dr.V-Bench и спутникового видео-агента Dr.V-Agent. Dr.V-Bench включает 10 тысяч примеров, извлеченных из 4 974 видео, охватывающих разнообразные задачи, каждый из которых обогащен детальными пространственно-временными аннотациями. Dr.V-Agent обнаруживает галлюцинации в LVMs, систематически применяя детальный пространственно-временной анализ на перцептивном и временном уровнях, за которым следует когнитивное рассуждение. Этот пошаговый процесс имитирует человеческое понимание видео и эффективно выявляет галлюцинации. Многочисленные эксперименты демонстрируют, что Dr.V-Agent эффективен в диагностике галлюцинаций, повышая интерпретируемость и надежность, предлагая практический подход для устойчивого понимания видео в реальных сценариях. Все наши данные и код доступны по адресу https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance
video understanding. However, these models continue to suffer from
hallucinations, producing content that conflicts with input videos. To address
this issue, we propose Dr.V, a hierarchical framework covering perceptive,
temporal, and cognitive levels to diagnose video hallucination by fine-grained
spatial-temporal grounding. Dr.V comprises of two key components: a benchmark
dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes
10k instances drawn from 4,974 videos spanning diverse tasks, each enriched
with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in
LVMs by systematically applying fine-grained spatial-temporal grounding at the
perceptive and temporal levels, followed by cognitive level reasoning. This
step-by-step pipeline mirrors human-like video comprehension and effectively
identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is
effective in diagnosing hallucination while enhancing interpretability and
reliability, offering a practical blueprint for robust video understanding in
real-world scenarios. All our data and code are available at
https://github.com/Eurekaleo/Dr.V.