QuoTA: Назначение токенов, ориентированное на запросы, через разделение запросов CoT для понимания длинных видео

Аннотация

Последние достижения в области понимания длинных видео обычно смягчают визуальную избыточность за счет обрезки визуальных токенов на основе распределения внимания. Однако, хотя существующие методы используют постфактумную обрезку токенов с низким откликом в слоях декодера, они упускают из виду семантическую корреляцию на уровне входа между визуальными токенами и инструкциями (запросом). В данной статье мы предлагаем QuoTA — антефактумный модуль, не требующий обучения, который расширяет существующие крупные видео-языковые модели (LVLMs) для назначения визуальных токенов на основе оценки важности на уровне кадров, ориентированной на запрос. Выбор токенов, ориентированный на запрос, имеет решающее значение, так как он согласует визуальную обработку с требованиями конкретной задачи, оптимизируя использование бюджета токенов при сохранении семантически релевантного контента. В частности, (i) QuoTA стратегически распределяет оценки важности на уровне кадров на основе релевантности запроса, позволяя выполнить однократное назначение визуальных токенов до кросс-модальных взаимодействий в слоях декодера, (ii) мы разделяем запрос с помощью рассуждений Chain-of-Thoughts, чтобы облегчить более точную оценку важности кадров на основе LVLM, и (iii) QuoTA предлагает функциональность plug-and-play, которая расширяется на существующие LVLMs. Обширные экспериментальные результаты показывают, что реализация QuoTA с LLaVA-Video-7B приводит к среднему улучшению производительности на 3,2% на шести тестовых наборах (включая Video-MME и MLVU) при работе в рамках того же бюджета визуальных токенов, что и у базовой модели. Код доступен по адресу https://github.com/MAC-AutoML/QuoTA.

English

Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

QuoTA: Назначение токенов, ориентированное на запросы, через разделение запросов CoT для понимания длинных видео

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Аннотация

Support