ChatPaper.aiChatPaper

Dr.V: Um Framework Hierárquico de Percepção-Temporal-Cognição para Diagnosticar Alucinação em Vídeos por meio de Ancoragem Espaço-Temporal de Alta Granularidade

Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

September 15, 2025
Autores: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu
cs.AI

Resumo

Os avanços recentes em modelos de vídeo de grande escala (LVMs) têm aprimorado significativamente a compreensão de vídeos. No entanto, esses modelos ainda sofrem com alucinações, produzindo conteúdo que conflita com os vídeos de entrada. Para abordar esse problema, propomos o Dr.V, uma estrutura hierárquica que abrange níveis perceptivos, temporais e cognitivos para diagnosticar alucinações em vídeos por meio de ancoragem espaço-temporal refinada. O Dr.V é composto por dois componentes principais: um conjunto de dados de referência, o Dr.V-Bench, e um agente de vídeo satélite, o Dr.V-Agent. O Dr.V-Bench inclui 10 mil instâncias extraídas de 4.974 vídeos que abrangem diversas tarefas, cada uma enriquecida com anotações espaço-temporais detalhadas. O Dr.V-Agent detecta alucinações em LVMs aplicando sistematicamente ancoragem espaço-temporal refinada nos níveis perceptivo e temporal, seguida por raciocínio no nível cognitivo. Esse pipeline passo a passo espelha a compreensão de vídeo semelhante à humana e identifica efetivamente as alucinações. Experimentos extensivos demonstram que o Dr.V-Agent é eficaz no diagnóstico de alucinações, ao mesmo tempo em que melhora a interpretabilidade e a confiabilidade, oferecendo um plano prático para uma compreensão robusta de vídeos em cenários do mundo real. Todos os nossos dados e código estão disponíveis em https://github.com/Eurekaleo/Dr.V.
English
Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.
PDF12September 16, 2025