ChatPaper.aiChatPaper

Многоуровневое объединение пространственно-временных токенов для бесплатного ускорения обучения видео-языковых моделей

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

July 10, 2025
Авторы: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI

Аннотация

Видео-ориентированные большие языковые модели (LLMs) достигают высокого уровня понимания видео за счет использования большого количества пространственно-временных токенов, но сталкиваются с квадратичным увеличением вычислительной сложности в зависимости от их количества. Для решения этой проблемы мы предлагаем метод объединения пространственно-временных токенов без необходимости обучения, названный STTM. Наше ключевое наблюдение заключается в использовании локальной пространственной и временной избыточности в видеоданных, которая ранее игнорировалась. STTM сначала преобразует каждый кадр в многогранулярные пространственные токены с помощью поиска от грубого к детальному в структуре квадродерева, а затем выполняет направленное попарное объединение по временной оси. Этот декомпозированный подход к объединению превосходит существующие методы сокращения токенов на шести бенчмарках для вопросно-ответных задач по видео. В частности, STTM обеспечивает ускорение в 2 раза при снижении точности всего на 0,5% при бюджете токенов в 50% и ускорение в 3 раза при снижении точности на 2% при бюджете в 30%. Кроме того, STTM не зависит от запроса, что позволяет повторно использовать кэш ключей и значений (KV cache) для разных вопросов к одному и тому же видео. Страница проекта доступна по адресу https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.
PDF283July 11, 2025