Multi-Granulare Raum-Zeit-Token-Zusammenführung für trainingsfreie Beschleunigung von Video-LLMs
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
July 10, 2025
papers.authors: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI
papers.abstract
Video Large Language Models (LLMs) erreichen ein starkes Verständnis von Videos, indem sie eine große Anzahl von räumlich-zeitlichen Tokens nutzen, leiden jedoch unter einer quadratischen Skalierung des Rechenaufwands mit der Token-Anzahl. Um dies zu adressieren, schlagen wir eine trainingsfreie Methode zur räumlich-zeitlichen Token-Zusammenführung vor, genannt STTM. Unser zentraler Ansatz besteht darin, lokale räumliche und zeitliche Redundanz in Videodaten auszunutzen, die in früheren Arbeiten übersehen wurde. STTM transformiert zunächst jedes Frame in multi-granulare räumliche Tokens durch eine grob-zu-fein Suche über eine Quadtree-Struktur und führt dann eine gerichtete paarweise Zusammenführung über die zeitliche Dimension durch. Dieser dekomponierte Zusammenführungsansatz übertrifft bestehende Token-Reduktionsmethoden über sechs Video-QA-Benchmarks hinweg. Bemerkenswerterweise erreicht STTM eine 2-fache Beschleunigung bei nur einem Genauigkeitsverlust von 0,5 % unter einem 50 % Token-Budget und eine 3-fache Beschleunigung mit einem Verlust von nur 2 % unter einem 30 % Budget. Darüber hinaus ist STTM abfrage-agnostisch, was die Wiederverwendung des KV-Caches über verschiedene Fragen für dasselbe Video ermöglicht. Die Projektseite ist verfügbar unter https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by
leveraging a large number of spatio-temporal tokens, but suffer from quadratic
computational scaling with token count. To address this, we propose a
training-free spatio-temporal token merging method, named STTM. Our key insight
is to exploit local spatial and temporal redundancy in video data which has
been overlooked in prior work. STTM first transforms each frame into
multi-granular spatial tokens using a coarse-to-fine search over a quadtree
structure, then performs directed pairwise merging across the temporal
dimension. This decomposed merging approach outperforms existing token
reduction methods across six video QA benchmarks. Notably, STTM achieves a
2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and
a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is
query-agnostic, allowing KV cache reuse across different questions for the same
video. The project page is available at https://www.jshyun.me/projects/sttm.