Разделяй, а затем обосновывай: адаптация выбора кадров к типам запросов для понимания длинных видео
Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
December 3, 2025
Авторы: Jialuo Li, Bin Li, Jiahao Li, Yan Lu
cs.AI
Аннотация
Применение больших мультимодальных моделей (LMM) для анализа длинных видео ограничивается малой длиной контекста и непомерно высокими вычислительными затратами на обработку плотных видеотокенов. В результате современные исследования сосредоточены на методах запросо-ориентированного выбора кадров, которые часто сопряжены со значительными вычислительными издержками. В данной статье оспаривается предположение о повсеместной необходимости таких сложных поисковых механизмов. Сначала мы определяем и валидируем типологию запросов, различая глобальные и локализованные запросы. Мы показываем, что в то время как равномерная выборка эффективна и экономична для глобальных запросов, локализованные запросы действительно требуют запросо-ориентированного отбора для достижения оптимальной производительности. Основываясь на этом наблюдении, мы предлагаем DIG — бесплатную (не требующую дообучения) систему выбора кадров, которая адаптирует свою стратегию в зависимости от типа запроса. В частности, DIG использует эффективную равномерную выборку для глобальных запросов, активируя специализированный конвейер для извлечения релевантных запросу кадров при обработке локализованных запросов. Эксперименты на трех бенчмарках для анализа длинных видео демонстрируют, что DIG стабильно превосходит существующие базовые методы и надежно улучшает производительность LMM, даже при масштабировании количества входных кадров до 256.
English
The application of Large Multimodal Models (LMMs) to long-form video understanding is constrained by limited context lengths and the computationally prohibitive cost of processing dense video tokens. Consequently, recent research has focused on query-aware frame selection, methods that often incur significant computational overhead. This paper challenges the assumption that such complex search mechanisms are universally necessary. We first identify and validate a query typology distinguishing between global query and localized query. We demonstrate that while uniform sampling is both effective and efficient for global queries, localized queries indeed necessitate query-aware selection for optimal performance. Building on this insight, we propose DIG, a training-free frame selection framework that adapts its strategy based on the query type. Specifically,DIG employs efficient uniform sampling for global queries while activating a specialized pipeline to extract query-relevant frames for localized queries. Experiments on three long-form video understanding benchmarks demonstrate that DIG consistently outperforms existing baselines and robustly improves LMM performance, even when scaling the input frame count to 256.