Fusione Multi-Granulare di Token Spazio-Temporali per l'Accelerazione Senza Addestramento di Video LLM
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
July 10, 2025
Autori: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per video (LLM) raggiungono una forte comprensione video sfruttando un numero elevato di token spazio-temporali, ma soffrono di una scala computazionale quadratica rispetto al numero di token. Per affrontare questo problema, proponiamo un metodo di fusione spazio-temporale dei token senza necessità di addestramento, denominato STTM. La nostra intuizione chiave è sfruttare la ridondanza locale spaziale e temporale nei dati video, aspetto trascurato nei lavori precedenti. STTM trasforma prima ogni fotogramma in token spaziali multi-granulari utilizzando una ricerca da grossolana a fine su una struttura a quadtree, quindi esegue una fusione diretta a coppie lungo la dimensione temporale. Questo approccio di fusione scomposto supera i metodi esistenti di riduzione dei token su sei benchmark di domande e risposte video. In particolare, STTM ottiene un'accelerazione di 2 volte con un calo di precisione dello 0,5% con un budget di token del 50%, e un'accelerazione di 3 volte con un calo di appena il 2% con un budget del 30%. Inoltre, STTM è indipendente dalla query, consentendo il riutilizzo della cache KV per diverse domande sullo stesso video. La pagina del progetto è disponibile all'indirizzo https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by
leveraging a large number of spatio-temporal tokens, but suffer from quadratic
computational scaling with token count. To address this, we propose a
training-free spatio-temporal token merging method, named STTM. Our key insight
is to exploit local spatial and temporal redundancy in video data which has
been overlooked in prior work. STTM first transforms each frame into
multi-granular spatial tokens using a coarse-to-fine search over a quadtree
structure, then performs directed pairwise merging across the temporal
dimension. This decomposed merging approach outperforms existing token
reduction methods across six video QA benchmarks. Notably, STTM achieves a
2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and
a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is
query-agnostic, allowing KV cache reuse across different questions for the same
video. The project page is available at https://www.jshyun.me/projects/sttm.