VideoDetective: Busca de Pistas por meio de Consulta Extrínseca e Relevância Intrínseca para Compreensão de Vídeos Longos

Resumo

A compreensão de vídeos longos continua a ser um desafio para os modelos de linguagem grandes multimodais (MLLMs) devido aos contextos limitados, que exigem a identificação de segmentos de vídeo esparsos relevantes para a consulta. No entanto, os métodos existentes predominantemente localizam pistas com base apenas na consulta, ignorando a estrutura intrínseca do vídeo e a relevância variável entre os segmentos. Para resolver isso, propomos o VideoDetective, uma estrutura que integra a relevância consulta-segmento e a afinidade entre segmentos para uma caça eficaz de pistas em tarefas de resposta a perguntas sobre vídeos longos. Especificamente, dividimos um vídeo em vários segmentos e os representamos como um grafo de afinidade visual-temporal construído a partir da similaridade visual e da proximidade temporal. Em seguida, realizamos um ciclo de Hipótese-Verificação-Refinamento para estimar os escores de relevância dos segmentos observados em relação à consulta e propagá-los para segmentos não observados, resultando numa distribuição de relevância global que orienta a localização dos segmentos mais críticos para a resposta final com observação esparsa. Experiências mostram que o nosso método alcança consistentemente ganhos substanciais numa ampla gama de MLLMs principais em benchmarks representativos, com melhorias de precisão de até 7,5% no VideoMME-long. O nosso código está disponível em https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective: Busca de Pistas por meio de Consulta Extrínseca e Relevância Intrínseca para Compreensão de Vídeos Longos

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Resumo

Support