Vereinheitlichte Bewertung räumlich-zeitlicher Token für effiziente Video-VLMs
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
March 18, 2026
Autoren: Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee
cs.AI
Zusammenfassung
Token-Pruning ist entscheidend, um die Recheneffizienz von Vision-Language-Modellen (VLMs) zu steigern, insbesondere bei videobasierten Aufgaben, bei denen zeitliche Redundanz häufig auftritt. Bisherige Ansätze beschneiden Tokens typischerweise entweder (1) ausschließlich innerhalb des Vision Transformers (ViT) für unimodale Wahrnehmungsaufgaben wie Aktionserkennung und Objektsegmentierung, ohne Anpassung an nachgelagerte Vision-Language-Aufgaben, oder (2) nur innerhalb der LLM, während die ViT-Ausgabe unverändert bleibt, was oft komplexe textkonditionierte Token-Auswahlmechanismen erfordert. In dieser Arbeit stellen wir Spatio-Temporal Token Scoring (STTS) vor, ein einfaches und leichtgewichtiges Modul, das Vision-Tokens sowohl im ViT als auch in der LLM ohne Textkonditionierung oder Token-Zusammenführung beschneidet und vollständig mit End-to-End-Training kompatibel ist. Indem STTS durch einen auxiliary Loss zeitliches und durch LLM-Gradienten der nachgelagerten Aufgabe räumliches Scoring erlernt – unterstützt durch unseren effizienten Packalgorithmus –, werden 50 % der Vision-Tokens throughout the entire architecture entfernt. Dies führt zu einer 62 %igen Effizienzsteigerung während Training und Inferenz bei nur einem Leistungsabfall von 0,7 % im Durchschnitt über 13 Video-QA-Aufgaben für kurze und lange Videos. Die Effizienzgewinne steigen mit mehr pro Video abgetasteten Frames. Die Anwendung von Test-Time-Scaling für Long-Video-QA erzielt im Vergleich zur Baseline weitere Leistungssteigerungen von 0,5–1 %. Insgesamt stellt STTS eine neuartige, einfache und dennoch effektive Technik für einheitliches, architekturweites Vision-Token-Pruning dar.
English
Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.