VideoDetective: Caccia agli Indizi attraverso Query Estrinseche e Rilevanza Intrinseca per la Comprensione di Video Lunghi

Abstract

La comprensione di video lunghi rimane una sfida per i modelli linguistici multimodali di grandi dimensioni (MLLM) a causa dei contesti limitati, che richiedono l'identificazione di segmenti video rilevanti per la query in modo sparso. Tuttavia, i metodi esistenti localizzano principalmente gli indizi basandosi esclusivamente sulla query, trascurando la struttura intrinseca del video e la diversa rilevanza tra i segmenti. Per affrontare questo problema, proponiamo VideoDetective, un framework che integra la rilevanza query-segmento e l'affinità inter-segmento per una caccia efficace agli indizi nelle attività di question answering su video lunghi. Nello specifico, suddividiamo un video in vari segmenti e li rappresentiamo come un grafo di affinità visivo-temporale costruito sulla similarità visiva e prossimità temporale. Eseguiamo quindi un ciclo Ipotesi-Verifica-Affinamento per stimare i punteggi di rilevanza dei segmenti osservati rispetto alla query e propagarli ai segmenti non visti, producendo una distribuzione di rilevanza globale che guida la localizzazione dei segmenti più critici per la risposta finale con osservazione sparsa. Gli esperimenti mostrano che il nostro metodo ottiene consistentemente miglioramenti sostanziali su un'ampia gamma di MLLM principali su benchmark rappresentativi, con incrementi di accuratezza fino al 7.5% su VideoMME-long. Il nostro codice è disponibile su https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective: Caccia agli Indizi attraverso Query Estrinseche e Rilevanza Intrinseca per la Comprensione di Video Lunghi

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Abstract

Support