VideoDetective : Chasse aux indices par requête extrinsèque et pertinence intrinsèque pour la compréhension de vidéos longues

Résumé

La compréhension de vidéos longues reste un défi pour les modèles de langage multimodaux de grande taille (MLLM) en raison de la taille limitée de leur fenêtre contextuelle, qui nécessite d'identifier des segments vidéo pertinents pour la requête de manière parcimonieuse. Cependant, les méthodes existantes localisent principalement des indices en se basant uniquement sur la requête, négligeant la structure intrinsèque de la vidéo et la pertinence variable entre les segments. Pour résoudre ce problème, nous proposons VideoDetective, un cadre qui intègre la pertinence requête-segment et l'affinité inter-segments pour une chasse efficace aux indices dans la réponse à des questions sur des vidéos longues. Concrètement, nous divisons une vidéo en plusieurs segments et les représentons sous forme d'un graphe d'affinité visuel-temporel construit à partir de la similarité visuelle et de la proximité temporelle. Nous effectuons ensuite une boucle Hypothèse-Vérification-Raffinement pour estimer les scores de pertinence des segments observés par rapport à la requête et les propager aux segments non vus, produisant ainsi une distribution de pertinence globale qui guide la localisation des segments les plus critiques pour la réponse finale avec une observation parcimonieuse. Les expériences montrent que notre méthode obtient systématiquement des gains substantiels sur une large gamme de MLLM grand public sur des benchmarks représentatifs, avec des améliorations de précision allant jusqu'à 7,5 % sur VideoMME-long. Notre code est disponible à l'adresse https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective : Chasse aux indices par requête extrinsèque et pertinence intrinsèque pour la compréhension de vidéos longues

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Résumé

Support