LLaVA-Scissor: Compressione dei Token tramite Componenti Connessi Semantici per Modelli Linguistici su Video

Abstract

In questo articolo presentiamo LLaVA-Scissor, una strategia di compressione dei token senza addestramento progettata per modelli linguistici multimodali di grandi dimensioni applicati ai video. I metodi precedenti tentano principalmente di comprimere i token basandosi sui punteggi di attenzione, ma non riescono a catturare efficacemente tutte le regioni semantiche e spesso portano a ridondanza dei token. In modo diverso, proponiamo di sfruttare l'approccio delle Componenti Connesse Semantiche (SCC), che assegna i token a distinte regioni semantiche all'interno dell'insieme di token, garantendo una copertura semantica completa. Il risultato è una strategia di compressione spaziotemporale dei token in due fasi che utilizza SCC sia nel dominio spaziale che in quello temporale. Questa strategia può comprimere efficacemente i token rappresentando l'intero video con un insieme di token semantici non sovrapposti. Abbiamo condotto valutazioni estensive delle capacità di compressione dei token di LLaVA-Scissor su diversi benchmark di comprensione video, tra cui risposte a domande sui video, comprensione di video lunghi e benchmark completi a scelta multipla. I risultati sperimentali dimostrano che il proposto LLaVA-Scissor supera altri metodi di compressione dei token, ottenendo prestazioni superiori in vari benchmark di comprensione video, specialmente con bassi rapporti di ritenzione dei token. Pagina del progetto: https://github.com/HumanMLLM/LLaVA-Scissor.

English

In this paper, we present LLaVA-Scissor, a training-free token compression strategy designed for video multimodal large language models. Previous methods mostly attempt to compress tokens based on attention scores, but fail to effectively capture all semantic regions and often lead to token redundancy. Differently, we propose to leverage the Semantic Connected Components (SCC) approach that assigns tokens to distinct semantic regions within the token set, ensuring comprehensive semantic coverage. The outcome is a two-step spatio-temporal token compression strategy that utilizes SCC in both spatial and temporal domains. This strategy can effectively compress tokens by representing the entire video with a set of non-overlapping semantic tokens. We conduct extensive evaluations of the token compression capabilities of LLaVA-Scissor across diverse video understanding benchmarks, including video question answering, long video understanding, and comprehensive multi-choices benchmarks. Experimental results show that the proposed LLaVA-Scissor outperforms other token compression methods, achieving superior performance in various video understanding benchmarks, particularly at low token retention ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.

LLaVA-Scissor: Compressione dei Token tramite Componenti Connessi Semantici per Modelli Linguistici su Video

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

Abstract

Support