ChatPaper.aiChatPaper

QuoTA: Atribuição de Tokens Orientada a Consultas via Desacoplamento de Consultas CoT para Compreensão de Vídeos Longos

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

March 11, 2025
Autores: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI

Resumo

Os avanços recentes na compreensão de vídeos longos geralmente mitigam a redundância visual por meio da poda de tokens visuais baseada na distribuição de atenção. No entanto, embora os métodos existentes empreguem a poda pós-hoc de tokens de baixa resposta nas camadas do decodificador, eles negligenciam a correlação semântica no nível de entrada entre os tokens visuais e as instruções (consulta). Neste artigo, propomos o QuoTA, um módulo ante-hoc sem necessidade de treinamento que estende os modelos grandes de vídeo-linguagem (LVLMs) existentes para a atribuição de tokens visuais com base na avaliação da importância em nível de quadro orientada pela consulta. A seleção de tokens orientada pela consulta é crucial, pois alinha o processamento visual com os requisitos específicos da tarefa, otimizando a utilização do orçamento de tokens enquanto preserva o conteúdo semanticamente relevante. Especificamente, (i) o QuoTA aloca estrategicamente pontuações de importância em nível de quadro com base na relevância da consulta, permitindo a atribuição única de tokens visuais antes das interações multimodais nas camadas do decodificador, (ii) desacoplamos a consulta por meio do raciocínio Chain-of-Thoughts para facilitar uma pontuação de importância de quadro mais precisa baseada em LVLM, e (iii) o QuoTA oferece uma funcionalidade plug-and-play que se estende aos LVLMs existentes. Resultados experimentais extensivos demonstram que a implementação do QuoTA com o LLaVA-Video-7B resulta em uma melhoria média de desempenho de 3,2% em seis benchmarks (incluindo Video-MME e MLVU) enquanto opera dentro de um orçamento idêntico de tokens visuais em relação à linha de base. Os códigos estão disponíveis em https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

Summary

AI-Generated Summary

PDF42March 12, 2025