Riduzione dei Token tramite Ottimizzazione dei Contesti Locali e Globali per Modelli Linguistici di Grandi Dimensioni Efficienti per Video

Abstract

I modelli linguistici di grandi dimensioni per video (VLLM) dimostrano una forte capacità di comprensione video ma soffrono di inefficienza a causa dei token visivi ridondanti. I metodi di pruning esistenti prendono di mira principalmente la ridondanza spaziale intra-frame o operano il pruning all'interno del LLM con un overhead di strati superficiali, ottenendo una riduzione spazio-temporale subottimale e sottoutilizzando la comprimibilità del contesto lungo. Tutti questi metodi spesso scartano contesti sottili ma informativi dai token uniti o rimossi. In questo articolo, proponiamo una nuova prospettiva che elabora Anchor di token sia intra-frame che inter-frame per aggregare in modo completo i contesti informativi tramite Trasporto Ottimale locale-globale (AOT). Nello specifico, stabiliamo prima anchor di token consapevoli del contesto locale e globale all'interno di ogni frame sotto la guida dell'attenzione, che poi aggregano tramite trasporto ottimale i contesti informativi dai token rimossi, costruendo anchor di token intra-frame. Successivamente, basandoci su clip di frame temporali, il primo frame all'interno di ogni clip viene considerato come anchor dei frame chiave per assemblare informazioni simili dai frame consecutivi attraverso il trasporto ottimale, preservando al contempo token distinti per rappresentare la dinamica temporale, portando a una riduzione efficiente dei token senza necessità di addestramento. Valutazioni estensive mostrano che il nostro AOT proposto ottiene prestazioni competitive su vari benchmark per video brevi e lunghi sui principali VLLM, raggiungendo una sostanziale efficienza computazionale preservando al contempo la fedeltà temporale e visiva. Pagina web del progetto: https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Riduzione dei Token tramite Ottimizzazione dei Contesti Locali e Globali per Modelli Linguistici di Grandi Dimensioni Efficienti per Video

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Abstract

Support