ChatPaper.aiChatPaper

분할 후 접지: 장편 영상 이해를 위한 질의 유형에 따른 프레임 선택 적응

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

December 3, 2025
저자: Jialuo Li, Bin Li, Jiahao Li, Yan Lu
cs.AI

초록

대규모 멀티모달 모델(LMM)의 장편 영상 이해 적용은 제한된 컨텍스트 길이와 밀집된 영상 토큰 처리의 계산 비용 과다 문제로 인해 제약을 받습니다. 이에 따라 최근 연구는 질의 인식 프레임 선택 방식에 집중되어 왔으나, 이러한 방법들은 종종 상당한 계산 오버헤드를 수반합니다. 본 논문은 이러한 복잡한 검색 메커니즘이 항상 필요하다는 가정에 의문을 제기합니다. 우리는 먼저 전역 질의와 지역화 질의를 구분하는 질의 유형론을 규명하고 검증합니다. 전역 질의에는 균일 샘플링이 효과적이면서도 효율적인 반면, 지역화 질의에서는 최적의 성능을 위해 실제로 질의 인식 선택이 필요함을 입증합니다. 이러한 통찰을 바탕으로 우리는 질의 유형에 따라 전략을 적응적으로調整하는 학습 불필요 프레임 선택 프레임워크인 DIG를 제안합니다. 구체적으로 DIG는 전역 질의에는 효율적인 균일 샘플링을 사용하고, 지역화 질의에는 특화된 파이프라인을 활성화하여 질의 관련 프레임을 추출합니다. 3개의 장편 영상 이해 벤치마크에서의 실험 결과, DIG는 기존 기준선을 지속적으로 능가하며 입력 프레임 수를 256개로 확장하더라도 LMM 성능을 강건하게 향상시킴을 보여줍니다.
English
The application of Large Multimodal Models (LMMs) to long-form video understanding is constrained by limited context lengths and the computationally prohibitive cost of processing dense video tokens. Consequently, recent research has focused on query-aware frame selection, methods that often incur significant computational overhead. This paper challenges the assumption that such complex search mechanisms are universally necessary. We first identify and validate a query typology distinguishing between global query and localized query. We demonstrate that while uniform sampling is both effective and efficient for global queries, localized queries indeed necessitate query-aware selection for optimal performance. Building on this insight, we propose DIG, a training-free frame selection framework that adapts its strategy based on the query type. Specifically,DIG employs efficient uniform sampling for global queries while activating a specialized pipeline to extract query-relevant frames for localized queries. Experiments on three long-form video understanding benchmarks demonstrate that DIG consistently outperforms existing baselines and robustly improves LMM performance, even when scaling the input frame count to 256.
PDF11December 5, 2025