Dividi, poi ancoraggi: adattare la selezione dei frame ai tipi di query per la comprensione di video di lunga durata
Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
December 3, 2025
Autori: Jialuo Li, Bin Li, Jiahao Li, Yan Lu
cs.AI
Abstract
L'applicazione dei Large Multimodal Models (LMM) alla comprensione di video di lunga durata è limitata dalla lunghezza limitata del contesto e dal costo computazionalmente proibitivo dell'elaborazione di token video densi. Di conseguenza, la ricerca recente si è concentrata sulla selezione di frame *query-aware*, metodi che spesso comportano un sovraccarico computazionale significativo. Questo articolo mette in discussione l'ipotesi che tali meccanismi di ricerca complessi siano universalmente necessari. In primo luogo, identifichiamo e convalidiamo una tipologia di query che distingue tra query globale e query localizzata. Dimostriamo che, mentre il campionamento uniforme è sia efficace che efficiente per le query globali, le query localizzate richiedono effettivamente una selezione *query-aware* per prestazioni ottimali. Basandoci su questa intuizione, proponiamo DIG, un framework di selezione dei frame che non richiede addestramento e che adatta la sua strategia in base al tipo di query. Nello specifico, DIG utilizza un efficiente campionamento uniforme per le query globali, attivando invece una pipeline specializzata per estrarre i frame rilevanti per la query in caso di query localizzate. Esperimenti su tre benchmark per la comprensione di video di lunga durata dimostrano che DIG supera costantemente i baseline esistenti e migliora in modo robusto le prestazioni degli LMM, anche quando il numero di frame in input viene scalato fino a 256.
English
The application of Large Multimodal Models (LMMs) to long-form video understanding is constrained by limited context lengths and the computationally prohibitive cost of processing dense video tokens. Consequently, recent research has focused on query-aware frame selection, methods that often incur significant computational overhead. This paper challenges the assumption that such complex search mechanisms are universally necessary. We first identify and validate a query typology distinguishing between global query and localized query. We demonstrate that while uniform sampling is both effective and efficient for global queries, localized queries indeed necessitate query-aware selection for optimal performance. Building on this insight, we propose DIG, a training-free frame selection framework that adapts its strategy based on the query type. Specifically,DIG employs efficient uniform sampling for global queries while activating a specialized pipeline to extract query-relevant frames for localized queries. Experiments on three long-form video understanding benchmarks demonstrate that DIG consistently outperforms existing baselines and robustly improves LMM performance, even when scaling the input frame count to 256.