ChatPaper.aiChatPaper

Fusion Multi-Granulaire de Tokens Spatio-Temporels pour l'Accélération Sans Entraînement des Modèles de Langage pour Vidéos

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

July 10, 2025
papers.authors: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim
cs.AI

papers.abstract

Les modèles de langage de grande taille pour la vidéo (LLMs) atteignent une compréhension vidéo robuste en exploitant un grand nombre de tokens spatio-temporels, mais souffrent d'une complexité computationnelle quadratique en fonction du nombre de tokens. Pour résoudre ce problème, nous proposons une méthode de fusion spatio-temporelle de tokens sans apprentissage, nommée STTM. Notre idée clé est d'exploiter la redondance locale spatiale et temporelle dans les données vidéo, un aspect négligé dans les travaux précédents. STTM transforme d'abord chaque image en tokens spatiaux multi-granulaires en utilisant une recherche grossière à fine sur une structure en arbre quaternaire, puis effectue une fusion dirigée par paires le long de la dimension temporelle. Cette approche de fusion décomposée surpasse les méthodes existantes de réduction de tokens sur six benchmarks de question-réponse vidéo. Notamment, STTM permet une accélération de 2 fois avec seulement une baisse de précision de 0,5 % pour un budget de tokens réduit de 50 %, et une accélération de 3 fois avec une baisse de précision de 2 % pour un budget de tokens réduit de 30 %. De plus, STTM est indépendante des requêtes, permettant la réutilisation du cache KV pour différentes questions sur la même vidéo. La page du projet est disponible à l'adresse suivante : https://www.jshyun.me/projects/sttm.
English
Video large language models (LLMs) achieve strong video understanding by leveraging a large number of spatio-temporal tokens, but suffer from quadratic computational scaling with token count. To address this, we propose a training-free spatio-temporal token merging method, named STTM. Our key insight is to exploit local spatial and temporal redundancy in video data which has been overlooked in prior work. STTM first transforms each frame into multi-granular spatial tokens using a coarse-to-fine search over a quadtree structure, then performs directed pairwise merging across the temporal dimension. This decomposed merging approach outperforms existing token reduction methods across six video QA benchmarks. Notably, STTM achieves a 2times speed-up with only a 0.5% accuracy drop under a 50% token budget, and a 3times speed-up with just a 2% drop under a 30% budget. Moreover, STTM is query-agnostic, allowing KV cache reuse across different questions for the same video. The project page is available at https://www.jshyun.me/projects/sttm.
PDF263July 11, 2025