Puntuación Unificada de Tokens Espacio-Temporales para Video VLMs Eficientes

Resumen

La poda de tokens es esencial para mejorar la eficiencia computacional de los modelos de visión y lenguaje (VLM), particularmente en tareas basadas en video donde la redundancia temporal es prevalente. Los enfoques anteriores normalmente podan tokens ya sea (1) dentro del transformador de visión (ViT) exclusivamente para tareas de percepción unimodal como reconocimiento de acciones y segmentación de objetos, sin adaptarse a tareas posteriores de visión y lenguaje; o (2) solo dentro del LLM dejando intacta la salida del ViT, lo que a menudo requiere mecanismos complejos de selección de tokens condicionados por texto. En este artículo, presentamos la Puntuación Espacio-Temporal de Tokens (STTS), un módulo simple y liviano que poda tokens de visión tanto en el ViT como en el LLM sin condicionamiento textual o fusión de tokens, y es totalmente compatible con el entrenamiento de extremo a extremo. Al aprender a puntuar temporalmente mediante una pérdida auxiliar y espacialmente mediante los gradientes descendentes del LLM, ayudado por nuestro algoritmo eficiente de empaquetamiento, STTS poda el 50% de los tokens de visión en toda la arquitectura, lo que resulta en una mejora del 62% en la eficiencia durante tanto el entrenamiento como la inferencia, con solo una caída del 0.7% en el rendimiento promedio en 13 tareas de QA de video cortos y largos. Las ganancias de eficiencia aumentan con más frames muestreados por video. La aplicación de escalado en tiempo de prueba para QA de videos largos produce además ganancias de rendimiento de 0.5-1% en comparación con la línea base. En general, STTS representa una técnica novedosa, simple pero efectiva para la poda unificada de tokens de visión en toda la arquitectura.

English

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

Puntuación Unificada de Tokens Espacio-Temporales para Video VLMs Eficientes

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Resumen

Support