ChatPaper.aiChatPaper

Multi-granulaire Spatio-temporele Token-samenvoeging voor Trainingsvrije Versnelling van Video LLM's

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

July 10, 2025
Auteurs: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI

Samenvatting

Video large language models (LLM's) bereiken een sterk begrip van video's door gebruik te maken van een groot aantal spatio-temporele tokens, maar lijden onder een kwadratische schaalbaarheid van de rekentijd ten opzichte van het aantal tokens. Om dit aan te pakken, stellen we een trainingsvrije methode voor het samenvoegen van spatio-temporele tokens voor, genaamd STTM. Onze belangrijkste inzicht is om gebruik te maken van lokale ruimtelijke en temporele redundantie in videogegevens, wat in eerder werk over het hoofd is gezien. STTM transformeert eerst elk frame in multi-granulaire ruimtelijke tokens door middel van een grof-naar-fijn zoektocht over een quadtree-structuur, en voert vervolgens gerichte paarsgewijze samenvoeging uit over de temporele dimensie. Deze ontbonden samenvoegingsaanpak overtreft bestaande methoden voor tokenreductie over zes video QA-benchmarks. Opmerkelijk is dat STTM een 2x versnelling bereikt met slechts een nauwkeurigheidsdaling van 0,5% onder een tokenbudget van 50%, en een 3x versnelling met slechts een daling van 2% onder een budget van 30%. Bovendien is STTM query-agnostisch, wat hergebruik van de KV-cache over verschillende vragen voor dezelfde video mogelijk maakt. De projectpagina is beschikbaar op https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.
PDF454July 11, 2025