VideoDetective: Búsqueda de Pistas mediante Consulta Extrínseca y Relevancia Intrínseca para la Comprensión de Videos Largos

Resumen

La comprensión de videos largos sigue siendo un desafío para los modelos de lenguaje multimodal (MLLM) debido a las ventanas de contexto limitadas, lo que hace necesario identificar segmentos de video relevantes para la consulta de forma dispersa. Sin embargo, los métodos existentes localizan pistas predominantemente basándose únicamente en la consulta, pasando por alto la estructura intrínseca del video y la relevancia variable entre segmentos. Para abordar este problema, proponemos VideoDetective, un marco que integra la relevancia consulta-segmento y la afinidad inter-segmentos para una búsqueda efectiva de pistas en la respuesta a preguntas sobre videos largos. Específicamente, dividimos un video en varios segmentos y los representamos como un grafo de afinidad visual-temporal construido a partir de la similitud visual y la proximidad temporal. Luego, realizamos un ciclo de Hipótesis-Verificación-Mejora para estimar las puntuaciones de relevancia de los segmentos observados con respecto a la consulta y las propagamos a segmentos no vistos, obteniendo una distribución de relevancia global que guía la localización de los segmentos más críticos para la respuesta final con una observación dispersa. Los experimentos muestran que nuestro método logra ganancias sustanciales de forma consistente en una amplia gama de MLLM principales en benchmarks representativos, con mejoras en la precisión de hasta el 7.5% en VideoMME-long. Nuestro código está disponible en https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective: Búsqueda de Pistas mediante Consulta Extrínseca y Relevancia Intrínseca para la Comprensión de Videos Largos

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Resumen

Support