QuoTA: Assegnazione Orientata alle Query dei Token tramite Decoupling delle Query CoT per la Comprensione di Video Lunghi
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
Autori: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
Abstract
I recenti progressi nella comprensione di video lunghi mitigano tipicamente la ridondanza visiva attraverso la potatura di token visivi basata sulla distribuzione dell'attenzione. Tuttavia, mentre i metodi esistenti impiegano una potatura post-hoc dei token a bassa risposta negli strati del decoder, trascurano la correlazione semantica a livello di input tra i token visivi e le istruzioni (query). In questo articolo, proponiamo QuoTA, un modulo ante-hoc senza necessità di addestramento che estende i modelli linguistico-visuali di grandi dimensioni (LVLM) esistenti per l'assegnazione di token visivi basata su una valutazione dell'importanza a livello di frame orientata alla query. La selezione dei token orientata alla query è cruciale in quanto allinea l'elaborazione visiva con i requisiti specifici del compito, ottimizzando l'utilizzo del budget di token preservando il contenuto semanticamente rilevante. Nello specifico, (i) QuoTA assegna strategicamente punteggi di importanza a livello di frame basati sulla rilevanza della query, consentendo un'assegnazione una tantum dei token visivi prima delle interazioni cross-modali negli strati del decoder, (ii) scomponiamo la query attraverso il ragionamento a catena di pensieri (Chain-of-Thoughts) per facilitare una valutazione più precisa dell'importanza dei frame basata su LVLM, e (iii) QuoTA offre una funzionalità plug-and-play che si estende agli LVLM esistenti. I risultati sperimentali estesi dimostrano che l'implementazione di QuoTA con LLaVA-Video-7B produce un miglioramento medio delle prestazioni del 3,2% su sei benchmark (inclusi Video-MME e MLVU) operando con un budget identico di token visivi rispetto alla baseline. I codici sono open-source all'indirizzo https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.