ChatPaper.aiChatPaper

Teile, dann verankere: Anpassung der Frame-Auswahl an Fragetypen für das Verständnis langer Videos

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

December 3, 2025
papers.authors: Jialuo Li, Bin Li, Jiahao Li, Yan Lu
cs.AI

papers.abstract

Die Anwendung großer multimodaler Modelle (LMMs) für das Verständnis langer Videos wird durch begrenzte Kontextlängen und den rechenintensiven Aufwand der Verarbeitung dichter Videotokens eingeschränkt. Folglich konzentriert sich die aktuelle Forschung auf abfragebewusste Frame-Auswahl, Methoden, die oft erheblichen Rechenaufwand verursachen. Dieses Papier stellt die Annahme in Frage, dass solche komplexen Suchmechanismen universell notwendig sind. Wir identifizieren und validieren zunächst eine Abfrage-Typologie, die zwischen globalen Abfragen und lokalisierten Abfragen unterscheidet. Wir zeigen, dass während gleichmäßige Abtastung für globale Abfragen sowohl effektiv als auch effizient ist, lokalisierte Abfragen tatsächlich eine abfragebewusste Auswahl für optimale Leistung erfordern. Aufbauend auf dieser Erkenntnis schlagen wir DIG vor, ein trainierungsfreies Framework zur Frame-Auswahl, das seine Strategie basierend auf dem Abfragetyp anpasst. Konkret setzt DIG für globale Abfragen eine effiziente gleichmäßige Abtastung ein, während es für lokalisierte Abfragen eine spezialisierte Pipeline aktiviert, um abfragerelevante Frames zu extrahieren. Experimente auf drei Benchmarks für das Verständnis langer Videos zeigen, dass DIG konsistent bestehende Baselines übertrifft und die LMM-Leistung robust verbessert, selbst wenn die Anzahl der Eingabeframes auf 256 skaliert wird.
English
The application of Large Multimodal Models (LMMs) to long-form video understanding is constrained by limited context lengths and the computationally prohibitive cost of processing dense video tokens. Consequently, recent research has focused on query-aware frame selection, methods that often incur significant computational overhead. This paper challenges the assumption that such complex search mechanisms are universally necessary. We first identify and validate a query typology distinguishing between global query and localized query. We demonstrate that while uniform sampling is both effective and efficient for global queries, localized queries indeed necessitate query-aware selection for optimal performance. Building on this insight, we propose DIG, a training-free frame selection framework that adapts its strategy based on the query type. Specifically,DIG employs efficient uniform sampling for global queries while activating a specialized pipeline to extract query-relevant frames for localized queries. Experiments on three long-form video understanding benchmarks demonstrate that DIG consistently outperforms existing baselines and robustly improves LMM performance, even when scaling the input frame count to 256.
PDF11December 5, 2025