ChatPaper.aiChatPaper

QuoTA : Attribution de jetons orientée requête via le découplage de requêtes CoT pour la compréhension de vidéos longues

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

March 11, 2025
Auteurs: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI

Résumé

Les avancées récentes dans la compréhension de vidéos longues atténuent généralement la redondance visuelle par l'élagage de tokens visuels basé sur la distribution de l'attention. Cependant, bien que les méthodes existantes utilisent un élagage post-hoc des tokens à faible réponse dans les couches de décodage, elles négligent la corrélation sémantique au niveau de l'entrée entre les tokens visuels et les instructions (requête). Dans cet article, nous proposons QuoTA, un module ante-hoc sans apprentissage qui étend les modèles de langage-vidéo de grande taille (LVLMs) existants pour l'assignation de tokens visuels basée sur une évaluation de l'importance au niveau des images orientée par la requête. La sélection de tokens orientée par la requête est cruciale car elle aligne le traitement visuel avec les exigences spécifiques à la tâche, optimisant l'utilisation du budget de tokens tout en préservant le contenu sémantiquement pertinent. Plus précisément, (i) QuoTA attribue stratégiquement des scores d'importance au niveau des images en fonction de la pertinence de la requête, permettant une assignation unique des tokens visuels avant les interactions intermodales dans les couches de décodage, (ii) nous découplons la requête par un raisonnement en chaîne de pensées (Chain-of-Thoughts) pour faciliter un calcul plus précis de l'importance des images basé sur les LVLMs, et (iii) QuoTA offre une fonctionnalité plug-and-play qui s'étend aux LVLMs existants. Les résultats expérimentaux approfondis montrent que l'implémentation de QuoTA avec LLaVA-Video-7B améliore en moyenne les performances de 3,2 % sur six benchmarks (incluant Video-MME et MLVU) tout en opérant avec un budget de tokens visuels identique à celui de la référence. Les codes sont open-source à l'adresse https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

Summary

AI-Generated Summary

PDF42March 12, 2025