Token-Reduktion durch Optimierung lokaler und globaler Kontexte für effiziente Video-Großsprachmodelle

Zusammenfassung

Video Large Language Models (VLLMs) zeigen ein starkes Videoverständnis, leiden jedoch unter Ineffizienz aufgrund redundanter visueller Tokens. Bisherige Reduktionsverfahren zielen primär auf intra-frame räumliche Redundanz ab oder reduzieren innerhalb des LLMs mit flachen Schichtüberlagerungen, was zu suboptimaler raumzeitlicher Reduktion und unzureichender Nutzung der Langzeitkontext-Komprimierbarkeit führt. Alle diese Verfahren verwerfen oft subtile, aber informative Kontexte aus zusammengeführten oder entfernten Tokens. In diesem Beitrag schlagen wir eine neue Perspektive vor, die Token-Anker innerhalb und zwischen Frames elaboriert, um informative Kontexte umfassend über lokales-globales Optimal Transport (AOT) zu aggregieren. Konkret etablieren wir zunächst lokale und globale Token-Anker innerhalb jedes Frames unter Aufmerksamkeitssteuerung, die dann durch optimalen Transport informative Kontexte aus entfernten Tokens aggregieren und intra-frame Token-Anker konstruieren. Darauf aufbauend werden innerhalb zeitlicher Frame-Clips die ersten Frames jedes Clips als Keyframe-Anker betrachtet, um ähnliche Informationen aus aufeinanderfolgenden Frames durch optimalen Transport zu bündeln, während distinkte Tokens zur Darstellung zeitlicher Dynamik erhalten bleiben. Dies führt zu effizienter Token-Reduktion ohne Trainingsaufwand. Umfangreiche Auswertungen zeigen, dass unser vorgeschlagenes AOT wettbewerbsfähige Leistungen über verschiedene Kurz- und Langvideo-Benchmarks auf führenden Video-LLMs erzielt und dabei erhebliche Recheneffizienz bei Bewahrung zeitlicher und visueller Treue erreicht. Projektwebseite: https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Token-Reduktion durch Optimierung lokaler und globaler Kontexte für effiziente Video-Großsprachmodelle

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Zusammenfassung

Support