QuoTA: Назначение токенов, ориентированное на запросы, через разделение запросов CoT для понимания длинных видео
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension
March 11, 2025
Авторы: Yongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
cs.AI
Аннотация
Последние достижения в области понимания длинных видео обычно смягчают визуальную избыточность за счет обрезки визуальных токенов на основе распределения внимания. Однако, хотя существующие методы используют постфактумную обрезку токенов с низким откликом в слоях декодера, они упускают из виду семантическую корреляцию на уровне входа между визуальными токенами и инструкциями (запросом). В данной статье мы предлагаем QuoTA — антефактумный модуль, не требующий обучения, который расширяет существующие крупные видео-языковые модели (LVLMs) для назначения визуальных токенов на основе оценки важности на уровне кадров, ориентированной на запрос. Выбор токенов, ориентированный на запрос, имеет решающее значение, так как он согласует визуальную обработку с требованиями конкретной задачи, оптимизируя использование бюджета токенов при сохранении семантически релевантного контента. В частности, (i) QuoTA стратегически распределяет оценки важности на уровне кадров на основе релевантности запроса, позволяя выполнить однократное назначение визуальных токенов до кросс-модальных взаимодействий в слоях декодера, (ii) мы разделяем запрос с помощью рассуждений Chain-of-Thoughts, чтобы облегчить более точную оценку важности кадров на основе LVLM, и (iii) QuoTA предлагает функциональность plug-and-play, которая расширяется на существующие LVLMs. Обширные экспериментальные результаты показывают, что реализация QuoTA с LLaVA-Video-7B приводит к среднему улучшению производительности на 3,2% на шести тестовых наборах (включая Video-MME и MLVU) при работе в рамках того же бюджета визуальных токенов, что и у базовой модели. Код доступен по адресу https://github.com/MAC-AutoML/QuoTA.
English
Recent advances in long video understanding typically mitigate visual
redundancy through visual token pruning based on attention distribution.
However, while existing methods employ post-hoc low-response token pruning in
decoder layers, they overlook the input-level semantic correlation between
visual tokens and instructions (query). In this paper, we propose QuoTA, an
ante-hoc training-free modular that extends existing large video-language
models (LVLMs) for visual token assignment based on query-oriented frame-level
importance assessment. The query-oriented token selection is crucial as it
aligns visual processing with task-specific requirements, optimizing token
budget utilization while preserving semantically relevant content.
Specifically, (i) QuoTA strategically allocates frame-level importance scores
based on query relevance, enabling one-time visual token assignment before
cross-modal interactions in decoder layers, (ii) we decouple the query through
Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame
importance scoring, and (iii) QuoTA offers a plug-and-play functionality that
extends to existing LVLMs. Extensive experimental results demonstrate that
implementing QuoTA with LLaVA-Video-7B yields an average performance
improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while
operating within an identical visual token budget as the baseline. Codes are
open-sourced at https://github.com/MAC-AutoML/QuoTA.Summary
AI-Generated Summary