QuoTA: Query-georiënteerde Token Toewijzing via CoT Query Ontkoppeling voor Langdurige Videocomprehensie
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
Auteurs: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
Samenvatting
Recente vooruitgang in het begrijpen van lange video's vermindert doorgaans visuele redundantie door visuele token pruning op basis van aandachtverdeling. Echter, hoewel bestaande methoden post-hoc pruning van tokens met lage respons in decoderlagen toepassen, negeren ze de semantische correlatie op invoerniveau tussen visuele tokens en instructies (query). In dit artikel stellen we QuoTA voor, een ante-hoc training-vrij module dat bestaande grote video-taalmodellen (LVLMs) uitbreidt voor visuele token toewijzing op basis van query-gerichte frame-level belangrijkheidsbeoordeling. De query-gerichte token selectie is cruciaal omdat het visuele verwerking afstemt op taakspecifieke vereisten, waardoor het tokenbudget optimaal wordt benut terwijl semantisch relevante inhoud behouden blijft. Specifiek (i) wijst QuoTA strategisch frame-level belangrijkheidsscores toe op basis van query relevantie, waardoor eenmalige visuele token toewijzing mogelijk is vóór cross-modale interacties in decoderlagen, (ii) ontkoppelen we de query via Chain-of-Thoughts redenering om nauwkeurigere LVLM-gebaseerde frame belangrijkheidsscores te faciliteren, en (iii) biedt QuoTA een plug-and-play functionaliteit die uitbreidt naar bestaande LVLMs. Uitgebreide experimentele resultaten tonen aan dat het implementeren van QuoTA met LLaVA-Video-7B een gemiddelde prestatieverbetering van 3,2% oplevert over zes benchmarks (inclusief Video-MME en MLVU) terwijl het opereert binnen een identiek visueel tokenbudget als de baseline. Codes zijn open-source beschikbaar op https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.Summary
AI-Generated Summary