Multi-granulaire Spatio-temporele Token-samenvoeging voor Trainingsvrije Versnelling van Video LLM's
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
July 10, 2025
Auteurs: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI
Samenvatting
Video large language models (LLM's) bereiken een sterk begrip van video's door gebruik te maken van een groot aantal spatio-temporele tokens, maar lijden onder een kwadratische schaalbaarheid van de rekentijd ten opzichte van het aantal tokens. Om dit aan te pakken, stellen we een trainingsvrije methode voor het samenvoegen van spatio-temporele tokens voor, genaamd STTM. Onze belangrijkste inzicht is om gebruik te maken van lokale ruimtelijke en temporele redundantie in videogegevens, wat in eerder werk over het hoofd is gezien. STTM transformeert eerst elk frame in multi-granulaire ruimtelijke tokens door middel van een grof-naar-fijn zoektocht over een quadtree-structuur, en voert vervolgens gerichte paarsgewijze samenvoeging uit over de temporele dimensie. Deze ontbonden samenvoegingsaanpak overtreft bestaande methoden voor tokenreductie over zes video QA-benchmarks. Opmerkelijk is dat STTM een 2x versnelling bereikt met slechts een nauwkeurigheidsdaling van 0,5% onder een tokenbudget van 50%, en een 3x versnelling met slechts een daling van 2% onder een budget van 30%. Bovendien is STTM query-agnostisch, wat hergebruik van de KV-cache over verschillende vragen voor dezelfde video mogelijk maakt. De projectpagina is beschikbaar op https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by
leveraging a large number of spatio-temporal tokens, but suffer from quadratic
computational scaling with token count. To address this, we propose a
training-free spatio-temporal token merging method, named STTM. Our key insight
is to exploit local spatial and temporal redundancy in video data which has
been overlooked in prior work. STTM first transforms each frame into
multi-granular spatial tokens using a coarse-to-fine search over a quadtree
structure, then performs directed pairwise merging across the temporal
dimension. This decomposed merging approach outperforms existing token
reduction methods across six video QA benchmarks. Notably, STTM achieves a
2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and
a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is
query-agnostic, allowing KV cache reuse across different questions for the same
video. The project page is available at https://www.jshyun.me/projects/sttm.