QuoTA: Asignación de Tokens Orientada a Consultas mediante Desacoplamiento de Consultas CoT para la Comprensión de Videos Largos
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
Autores: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
Resumen
Los avances recientes en la comprensión de videos largos suelen mitigar la redundancia visual mediante la poda de tokens visuales basada en la distribución de atención. Sin embargo, aunque los métodos existentes emplean la poda de tokens de baja respuesta a posteriori en las capas del decodificador, pasan por alto la correlación semántica a nivel de entrada entre los tokens visuales y las instrucciones (consulta). En este artículo, proponemos QuoTA, un módulo de entrenamiento libre a priori que extiende los modelos grandes de video-lenguaje (LVLM) existentes para la asignación de tokens visuales basada en la evaluación de importancia a nivel de fotogramas orientada a la consulta. La selección de tokens orientada a la consulta es crucial, ya que alinea el procesamiento visual con los requisitos específicos de la tarea, optimizando la utilización del presupuesto de tokens mientras preserva el contenido semánticamente relevante. Específicamente, (i) QuoTA asigna estratégicamente puntuaciones de importancia a nivel de fotogramas basadas en la relevancia de la consulta, permitiendo la asignación de tokens visuales de una sola vez antes de las interacciones multimodales en las capas del decodificador, (ii) desacoplamos la consulta mediante el razonamiento de Cadena de Pensamientos para facilitar una puntuación de importancia de fotogramas más precisa basada en LVLM, y (iii) QuoTA ofrece una funcionalidad plug-and-play que se extiende a los LVLM existentes. Los resultados experimentales extensivos demuestran que la implementación de QuoTA con LLaVA-Video-7B produce una mejora promedio del rendimiento del 3.2% en seis benchmarks (incluyendo Video-MME y MLVU) mientras opera dentro de un presupuesto idéntico de tokens visuales que la línea base. Los códigos están disponibles en https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.Summary
AI-Generated Summary