VideoDetective: Aanwijzingen Jagen via zowel Externe Query als Interne Relevantie voor Langdurige Videobegrip
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding
March 23, 2026
Auteurs: Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu
cs.AI
Samenvatting
Het begrijpen van lange video's blijft een uitdaging voor multimodale grote taalmodellen (MLLM's) vanwege beperkte contextvensters, waardoor het noodzakelijk is om schaarse, vraagrelevante videosegmenten te identificeren. Bestaande methoden lokaliseren echter voornamelijk aanwijzingen uitsluitend op basis van de vraag, waarbij de intrinsieke structuur van de video en de variërende relevantie tussen segmenten over het hoofd worden gezien. Om dit aan te pakken, stellen we VideoDetective voor, een framework dat vraag-naar-segmentrelevantie en onderlinge segmentaffiniteit integreert voor effectieve zoektochten naar aanwijzingen bij vraagbeantwoording over lange video's. Concreet verdelen we een video in verschillende segmenten en representeren deze als een visueel-temporele affiniteitsgrafiek, opgebouwd uit visuele gelijkenis en temporele nabijheid. Vervolgens voeren we een Hypothese-Verificatie-Verfijningslus uit om de relevantiescores van geobserveerde segmenten ten opzichte van de vraag te schatten en deze door te geven aan niet-geobserveerde segmenten, wat resulteert in een globale relevantieverdeling die de lokalisatie van de meest kritieke segmenten leidt voor uiteindelijke beantwoording met schaarse observatie. Experimenten tonen aan dat onze methode consistente, substantiële verbeteringen behaalt over een breed scala aan mainstream MLLM's op representatieve benchmarks, met nauwkeurigheidsverbeteringen tot 7,5% op VideoMME-long. Onze code is beschikbaar op https://videodetective.github.io/
English
Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/