Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video
Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
July 10, 2025
Autores: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) para video logran una comprensión sólida de los videos al aprovechar un gran número de tokens espacio-temporales, pero sufren de un escalado computacional cuadrático con respecto al número de tokens. Para abordar este problema, proponemos un método de fusión de tokens espacio-temporales sin necesidad de entrenamiento, denominado STTM. Nuestra idea clave es explotar la redundancia local espacial y temporal en los datos de video, la cual ha sido pasada por alto en trabajos anteriores. STTM primero transforma cada fotograma en tokens espaciales multi-granulares utilizando una búsqueda de grueso a fino sobre una estructura de árbol cuaternario, luego realiza una fusión dirigida por pares a lo largo de la dimensión temporal. Este enfoque de fusión descompuesta supera a los métodos existentes de reducción de tokens en seis benchmarks de preguntas y respuestas sobre videos. Notablemente, STTM logra una aceleración de 2 veces con solo una caída del 0.5% en precisión bajo un presupuesto del 50% de tokens, y una aceleración de 3 veces con apenas un 2% de caída bajo un presupuesto del 30%. Además, STTM es independiente de la consulta, lo que permite la reutilización de la caché KV entre diferentes preguntas para el mismo video. La página del proyecto está disponible en https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by
leveraging a large number of spatio-temporal tokens, but suffer from quadratic
computational scaling with token count. To address this, we propose a
training-free spatio-temporal token merging method, named STTM. Our key insight
is to exploit local spatial and temporal redundancy in video data which has
been overlooked in prior work. STTM first transforms each frame into
multi-granular spatial tokens using a coarse-to-fine search over a quadtree
structure, then performs directed pairwise merging across the temporal
dimension. This decomposed merging approach outperforms existing token
reduction methods across six video QA benchmarks. Notably, STTM achieves a
2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and
a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is
query-agnostic, allowing KV cache reuse across different questions for the same
video. The project page is available at https://www.jshyun.me/projects/sttm.