Redução de Tokens via Otimização de Contextos Locais e Globais para Modeles de Linguagem de Grande Porte Eficientes em Vídeo

Resumo

Os Modelos de Linguagem de Grande Porte para Vídeo (VLLMs) demonstram forte capacidade de compreensão de vídeo, mas sofrem com ineficiência devido a tokens visuais redundantes. As abordagens de poda existentes visam principalmente a redundância espacial intraquadro ou realizam a poda dentro do LLM com sobrecarga de camadas superficiais, resultando em uma redução espaço-temporal subótima e subutilizando a compressibilidade de contexto longo. Todas elas frequentemente descartam contextos sutis, porém informativos, de tokens mesclados ou podados. Neste artigo, propomos uma nova perspectiva que elabora Âncoras de Tokens (AOT) intraquadro e interquadro para agregar de forma abrangente os contextos informativos por meio de Transporte Ótimo local-global. Especificamente, primeiro estabelecemos âncoras de tokens com consciência local e global dentro de cada quadro sob a orientação da atenção, que então agregam, via transporte ótimo, os contextos informativos dos tokens podados, construindo âncoras de tokens intraquadro. Em seguida, com base em clipes de quadros temporais, o primeiro quadro de cada clipe é considerado como âncora de quadro-chave para agregar informações semelhantes de quadros consecutivos através do transporte ótimo, mantendo tokens distintos para representar a dinâmica temporal, levando a uma redução eficiente de tokens de forma livre de treinamento. Avaliações extensivas mostram que nossa AOT proposta obtém desempenhos competitivos em vários benchmarks de vídeos curtos e longos em VLLMs líderes, alcançando eficiência computacional substancial enquanto preserva a fidelidade temporal e visual. Página do projeto: https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Redução de Tokens via Otimização de Contextos Locais e Globais para Modeles de Linguagem de Grande Porte Eficientes em Vídeo

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Resumo

Support