Fusão de Tokens Espaço-Temporais Multi-Granulares para Aceleração Livre de Treinamento em LLMs de Vídeo
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
July 10, 2025
Autores: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) para vídeo alcançam uma forte compreensão de vídeo ao aproveitar um grande número de tokens espaço-temporais, mas sofrem com o escalonamento quadrático de computação em relação à contagem de tokens. Para resolver isso, propomos um método de fusão de tokens espaço-temporais sem necessidade de treinamento, denominado STTM. Nossa principal percepção é explorar a redundância local espacial e temporal em dados de vídeo que foi negligenciada em trabalhos anteriores. O STTM primeiro transforma cada quadro em tokens espaciais multi-granulares usando uma busca de grosseiro para refinado sobre uma estrutura de quadtree, em seguida, realiza uma fusão direcionada de pares ao longo da dimensão temporal. Essa abordagem de fusão decomposta supera os métodos existentes de redução de tokens em seis benchmarks de Q&A de vídeo. Notavelmente, o STTM alcança uma aceleração de 2 vezes com apenas uma queda de 0,5% na precisão sob um orçamento de 50% de tokens, e uma aceleração de 3 vezes com apenas uma queda de 2% sob um orçamento de 30%. Além disso, o STTM é agnóstico a consultas, permitindo a reutilização do cache KV em diferentes perguntas para o mesmo vídeo. A página do projeto está disponível em https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by
leveraging a large number of spatio-temporal tokens, but suffer from quadratic
computational scaling with token count. To address this, we propose a
training-free spatio-temporal token merging method, named STTM. Our key insight
is to exploit local spatial and temporal redundancy in video data which has
been overlooked in prior work. STTM first transforms each frame into
multi-granular spatial tokens using a coarse-to-fine search over a quadtree
structure, then performs directed pairwise merging across the temporal
dimension. This decomposed merging approach outperforms existing token
reduction methods across six video QA benchmarks. Notably, STTM achieves a
2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and
a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is
query-agnostic, allowing KV cache reuse across different questions for the same
video. The project page is available at https://www.jshyun.me/projects/sttm.