QuoTA: 장기 비디오 이해를 위한 CoT 쿼리 디커플링 기반 쿼리 지향 토큰 할당
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
저자: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
초록
최근 긴 비디오 이해 분야의 발전은 주로 주의 분포를 기반으로 시각적 토큰 가지치기를 통해 시각적 중복성을 완화하는 방식으로 이루어졌습니다. 그러나 기존 방법들은 디코더 레이어에서 사후적으로 낮은 응답을 보이는 토큰을 가지치기하는 반면, 시각적 토큰과 지시문(쿼리) 간의 입력 수준에서의 의미적 상관관계를 간과하고 있습니다. 본 논문에서는 쿼리 지향 프레임 중요도 평가를 기반으로 시각적 토큰 할당을 위해 기존의 대형 비디오-언어 모델(LVLMs)을 확장하는 사전 학습이 필요 없는 모듈인 QuoTA를 제안합니다. 쿼리 지향 토큰 선택은 시각적 처리를 작업별 요구사항에 맞추어 조정함으로써 토큰 예산 활용을 최적화하고 의미적으로 관련된 콘텐츠를 보존하는 데 중요합니다. 구체적으로, (i) QuoTA는 쿼리 관련성을 기반으로 프레임 중요도 점수를 전략적으로 할당하여 디코더 레이어에서의 교차 모달 상호작용 전에 일회성 시각적 토큰 할당을 가능하게 하고, (ii) Chain-of-Thoughts 추론을 통해 쿼리를 분리하여 더 정확한 LVLM 기반 프레임 중요도 점수 산출을 용이하게 하며, (iii) QuoTA는 기존 LVLMs에 확장 가능한 플러그 앤 플레이 기능을 제공합니다. 광범위한 실험 결과, LLaVA-Video-7B에 QuoTA를 적용하면 동일한 시각적 토큰 예산 내에서 Video-MME 및 MLVU를 포함한 6개 벤치마크에서 평균 3.2%의 성능 향상을 보였습니다. 코드는 https://github.com/MAC-AutoML/QuoTA에서 공개되어 있습니다.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.Summary
AI-Generated Summary