Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video

Resumen

Los modelos de lenguaje de gran escala (LLMs) para video logran una comprensión sólida de los videos al aprovechar un gran número de tokens espacio-temporales, pero sufren de un escalado computacional cuadrático con respecto al número de tokens. Para abordar este problema, proponemos un método de fusión de tokens espacio-temporales sin necesidad de entrenamiento, denominado STTM. Nuestra idea clave es explotar la redundancia local espacial y temporal en los datos de video, la cual ha sido pasada por alto en trabajos anteriores. STTM primero transforma cada fotograma en tokens espaciales multi-granulares utilizando una búsqueda de grueso a fino sobre una estructura de árbol cuaternario, luego realiza una fusión dirigida por pares a lo largo de la dimensión temporal. Este enfoque de fusión descompuesta supera a los métodos existentes de reducción de tokens en seis benchmarks de preguntas y respuestas sobre videos. Notablemente, STTM logra una aceleración de 2 veces con solo una caída del 0.5% en precisión bajo un presupuesto del 50% de tokens, y una aceleración de 3 veces con apenas un 2% de caída bajo un presupuesto del 30%. Además, STTM es independiente de la consulta, lo que permite la reutilización de la caché KV entre diferentes preguntas para el mismo video. La página del proyecto está disponible en https://www.jshyun.me/projects/sttm.

English

Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.

Fusión Multi-Granular de Tokens Espacio-Temporales para la Aceleración sin Entrenamiento de LLMs de Video

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Resumen

Support