LLaVA-Scissor: Token-Kompression mit semantisch verbundenen Komponenten für Video-LLMs
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
June 27, 2025
Autoren: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir LLaVA-Scissor, eine trainingsfreie Token-Kompressionsstrategie, die für multimodale Large-Language-Modelle im Videobereich entwickelt wurde. Bisherige Methoden versuchen meist, Token basierend auf Aufmerksamkeitswerten zu komprimieren, scheitern jedoch daran, alle semantischen Regionen effektiv zu erfassen und führen oft zu Token-Redundanz. Im Gegensatz dazu schlagen wir vor, den Ansatz der Semantisch Verbundenen Komponenten (Semantic Connected Components, SCC) zu nutzen, der Token verschiedenen semantischen Regionen innerhalb des Token-Sets zuordnet und so eine umfassende semantische Abdeckung sicherstellt. Das Ergebnis ist eine zweistufige räumlich-zeitliche Token-Kompressionsstrategie, die SCC sowohl im räumlichen als auch im zeitlichen Bereich anwendet. Diese Strategie kann Token effektiv komprimieren, indem das gesamte Video durch eine Menge nicht überlappender semantischer Token repräsentiert wird. Wir führen umfangreiche Bewertungen der Token-Kompressionsfähigkeiten von LLaVA-Scissor über diverse Video-Verständnis-Benchmarks durch, darunter Video-Frage-Antwort-Systeme, Langzeitvideo-Verständnis und umfassende Multiple-Choice-Benchmarks. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene LLaVA-Scissor andere Token-Kompressionsmethoden übertrifft und insbesondere bei niedrigen Token-Retentionsraten eine überlegene Leistung in verschiedenen Video-Verständnis-Benchmarks erzielt. Projektseite: https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression
strategy designed for video multimodal large language models. Previous methods
mostly attempt to compress tokens based on attention scores, but fail to
effectively capture all semantic regions and often lead to token redundancy.
Differently, we propose to leverage the Semantic Connected Components (SCC)
approach that assigns tokens to distinct semantic regions within the token set,
ensuring comprehensive semantic coverage. The outcome is a two-step
spatio-temporal token compression strategy that utilizes SCC in both spatial
and temporal domains. This strategy can effectively compress tokens by
representing the entire video with a set of non-overlapping semantic tokens. We
conduct extensive evaluations of the token compression capabilities of
LLaVA-Scissor across diverse video understanding benchmarks, including video
question answering, long video understanding, and comprehensive multi-choices
benchmarks. Experimental results show that the proposed LLaVA-Scissor
outperforms other token compression methods, achieving superior performance in
various video understanding benchmarks, particularly at low token retention
ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.