Valutazione Unificata dei Token Spazio-Temporali per VLM Video Efficienti

Abstract

La potatura dei token è essenziale per migliorare l'efficienza computazionale dei modelli visione-linguaggio (VLM), specialmente per attività basate su video dove la ridondanza temporale è prevalente. Gli approcci precedenti tipicamente potano i token (1) all'interno del vision transformer (ViT) esclusivamente per task di percezione unimodale come la riconoscimento di azioni e la segmentazione di oggetti, senza adattarsi ai task visione-linguaggio downstream; oppure (2) solo all'interno dell'LLM lasciando intatto l'output del ViT, spesso richiedendo meccanismi complessi di selezione dei token condizionati dal testo. In questo articolo, introduciamo Spatio-Temporal Token Scoring (STTS), un modulo semplice e leggero che pota i token visivi sia nel ViT che nell'LLM senza condizionamento testuale o fusione di token, ed è pienamente compatibile con l'addestramento end-to-end. Imparando a valutare temporalmente tramite una loss ausiliaria e spazialmente tramite i gradienti downstream dell'LLM, coadiuvato dal nostro efficiente algoritmo di impacchettamento, STTS pota il 50% dei token visivi nell'intera architettura, determinando un miglioramento del 62% nell'efficienza durante sia l'addestramento che l'inferenza, con un calo di prestazioni medio solo dello 0,7% su 13 task di video QA (brevi e lunghi). I guadagni di efficienza aumentano con un maggior numero di frame campionati per video. L'applicazione dello scaling al test-time per il video QA su video lunghi produce ulteriori guadagni prestazionali dello 0,5-1% rispetto al baseline. Nel complesso, STTS rappresenta una tecnica nuova, semplice ma efficace per una potatura unificata dei token visivi su tutta l'architettura.

English

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

Valutazione Unificata dei Token Spazio-Temporali per VLM Video Efficienti

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Abstract

Support