Pontuação Unificada de Tokens Espaço-Temporais para VLMs de Vídeo Eficientes

Resumo

A poda de tokens é essencial para melhorar a eficiência computacional de modelos visão-linguagem (VLMs), particularmente em tarefas baseadas em vídeo, onde a redundância temporal é prevalente. Abordagens anteriores normalmente podam tokens (1) dentro do transformador de visão (ViT) exclusivamente para tarefas de percepção unimodal, como reconhecimento de ações e segmentação de objetos, sem adaptação para tarefas visão-linguagem a jusante; ou (2) apenas dentro do LLM, deixando a saída do ViT intacta, frequentemente exigindo mecanismos complexos de seleção de tokens condicionados por texto. Neste artigo, introduzimos o Spatio-Temporal Token Scoring (STTS), um módulo simples e leve que poda tokens visuais tanto no ViT quanto no LLM sem condicionamento por texto ou fusão de tokens, sendo totalmente compatível com o treinamento de ponta a ponta. Ao aprender a pontuar temporalmente por meio de uma função de custo auxiliar e espacialmente por meio dos gradientes a jusante do LLM, auxiliado pelo nosso algoritmo eficiente de empacotamento, o STTS poda 50% dos tokens visuais em toda a arquitetura, resultando em uma melhoria de 62% na eficiência durante o treinamento e a inferência, com uma queda de apenas 0,7% no desempenho médio em 13 tarefas de Q&A com vídeos curtos e longos. Os ganhos de eficiência aumentam com mais quadros amostrados por vídeo. A aplicação de escalonamento no tempo de teste para Q&A com vídeos longos produz ainda ganhos de desempenho de 0,5-1% em comparação com a linha de base. No geral, o STTS representa uma técnica nova, simples, porém eficaz, para a poda unificada de tokens visuais em toda a arquitetura.

English

Token pruning is essential for enhancing the computational efficiency of vision-language models (VLMs), particularly for video-based tasks where temporal redundancy is prevalent. Prior approaches typically prune tokens either (1) within the vision transformer (ViT) exclusively for unimodal perception tasks such as action recognition and object segmentation, without adapting to downstream vision-language tasks; or (2) only within the LLM while leaving the ViT output intact, often requiring complex text-conditioned token selection mechanisms. In this paper, we introduce Spatio-Temporal Token Scoring (STTS), a simple and lightweight module that prunes vision tokens across both the ViT and the LLM without text conditioning or token merging, and is fully compatible with end-to-end training. By learning how to score temporally via an auxiliary loss and spatially via LLM downstream gradients, aided by our efficient packing algorithm, STTS prunes 50% of vision tokens throughout the entire architecture, resulting in a 62% improvement in efficiency during both training and inference with only a 0.7% drop in average performance across 13 short and long video QA tasks. Efficiency gains increase with more sampled frames per video. Applying test-time scaling for long-video QA further yields performance gains of 0.5-1% compared to the baseline. Overall, STTS represents a novel, simple yet effective technique for unified, architecture-wide vision token pruning.

Pontuação Unificada de Tokens Espaço-Temporais para VLMs de Vídeo Eficientes

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Resumo

Support