LLaVA-Scissor: Compressione dei Token tramite Componenti Connessi Semantici per Modelli Linguistici su Video
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
June 27, 2025
Autori: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI
Abstract
In questo articolo presentiamo LLaVA-Scissor, una strategia di compressione dei token senza addestramento progettata per modelli linguistici multimodali di grandi dimensioni applicati ai video. I metodi precedenti tentano principalmente di comprimere i token basandosi sui punteggi di attenzione, ma non riescono a catturare efficacemente tutte le regioni semantiche e spesso portano a ridondanza dei token. In modo diverso, proponiamo di sfruttare l'approccio delle Componenti Connesse Semantiche (SCC), che assegna i token a distinte regioni semantiche all'interno dell'insieme di token, garantendo una copertura semantica completa. Il risultato è una strategia di compressione spaziotemporale dei token in due fasi che utilizza SCC sia nel dominio spaziale che in quello temporale. Questa strategia può comprimere efficacemente i token rappresentando l'intero video con un insieme di token semantici non sovrapposti. Abbiamo condotto valutazioni estensive delle capacità di compressione dei token di LLaVA-Scissor su diversi benchmark di comprensione video, tra cui risposte a domande sui video, comprensione di video lunghi e benchmark completi a scelta multipla. I risultati sperimentali dimostrano che il proposto LLaVA-Scissor supera altri metodi di compressione dei token, ottenendo prestazioni superiori in vari benchmark di comprensione video, specialmente con bassi rapporti di ritenzione dei token. Pagina del progetto: https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression
strategy designed for video multimodal large language models. Previous methods
mostly attempt to compress tokens based on attention scores, but fail to
effectively capture all semantic regions and often lead to token redundancy.
Differently, we propose to leverage the Semantic Connected Components (SCC)
approach that assigns tokens to distinct semantic regions within the token set,
ensuring comprehensive semantic coverage. The outcome is a two-step
spatio-temporal token compression strategy that utilizes SCC in both spatial
and temporal domains. This strategy can effectively compress tokens by
representing the entire video with a set of non-overlapping semantic tokens. We
conduct extensive evaluations of the token compression capabilities of
LLaVA-Scissor across diverse video understanding benchmarks, including video
question answering, long video understanding, and comprehensive multi-choices
benchmarks. Experimental results show that the proposed LLaVA-Scissor
outperforms other token compression methods, achieving superior performance in
various video understanding benchmarks, particularly at low token retention
ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.