VideoDetective: Spurensuche mittels extrinsischer Abfrage und intrinsischer Relevanz für das Verständnis langer Videos

Zusammenfassung

Das Verständnis langer Videos bleibt für multimodale große Sprachmodelle (MLLMs) aufgrund begrenzter Kontextfenster eine Herausforderung, da hierbei spärliche, abfragerelevante Videosegmente identifiziert werden müssen. Bisherige Methoden lokalisieren Hinweise jedoch überwiegend ausschließlich auf Basis der Abfrage und vernachlässigen dabei die intrinsische Struktur des Videos und die unterschiedliche Relevanz der Segmente. Um dieses Problem zu lösen, schlagen wir VideoDetective vor, einen Framework, der Abfrage-Segment-Relevanz und Inter-Segment-Affinität integriert, um effektiv Hinweise bei der Beantwortung von Fragen zu langen Videos zu finden. Konkret unterteilen wir ein Video in verschiedene Segmente und repräsentieren diese als einen visuell-temporalen Affinitätsgraphen, der auf visueller Ähnlichkeit und zeitlicher Nähe basiert. Anschließend führen wir eine Hypothesen-Verifikations-Verbesserungs-Schleife durch, um die Relevanzwerte beobachteter Segmente für die Abfrage zu schätzen und diese auf nicht beobachtete Segmente zu übertragen. Dies ergibt eine globale Relevanzverteilung, die die Lokalisierung der kritischsten Segmente für die finale Beantwortung bei spärlicher Beobachtung leitet. Experimente zeigen, dass unsere Methode durchgängig substantiale Verbesserungen über eine breite Palette von Mainstream-MLLMs auf repräsentativen Benchmarks erzielt, mit Genauigkeitssteigerungen von bis zu 7,5 % auf VideoMME-long. Unser Code ist verfügbar unter https://videodetective.github.io/

English

Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, existing methods predominantly localize clues based solely on the query, overlooking the video's intrinsic structure and varying relevance across segments. To address this, we propose VideoDetective, a framework that integrates query-to-segment relevance and inter-segment affinity for effective clue hunting in long-video question answering. Specifically, we divide a video into various segments and represent them as a visual-temporal affinity graph built from visual similarity and temporal proximity. We then perform a Hypothesis-Verification-Refinement loop to estimate relevance scores of observed segments to the query and propagate them to unseen segments, yielding a global relevance distribution that guides the localization of the most critical segments for final answering with sparse observation. Experiments show our method consistently achieves substantial gains across a wide range of mainstream MLLMs on representative benchmarks, with accuracy improvements of up to 7.5% on VideoMME-long. Our code is available at https://videodetective.github.io/

VideoDetective: Spurensuche mittels extrinsischer Abfrage und intrinsischer Relevanz für das Verständnis langer Videos

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Zusammenfassung

Support