ChatPaper.aiChatPaper

LLaVA-Scissor: Compressão de Tokens com Componentes Conectados Semânticos para LLMs de Vídeo

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

June 27, 2025
Autores: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI

Resumo

Neste artigo, apresentamos o LLaVA-Scissor, uma estratégia de compressão de tokens sem necessidade de treinamento, projetada para modelos de linguagem multimodal de vídeo. Métodos anteriores tentam principalmente comprimir tokens com base em pontuações de atenção, mas falham em capturar efetivamente todas as regiões semânticas e frequentemente resultam em redundância de tokens. Diferentemente, propomos utilizar a abordagem de Componentes Conectados Semânticos (SCC), que atribui tokens a regiões semânticas distintas dentro do conjunto de tokens, garantindo uma cobertura semântica abrangente. O resultado é uma estratégia de compressão espaço-temporal de tokens em duas etapas que utiliza SCC tanto no domínio espacial quanto no temporal. Essa estratégia pode comprimir tokens de forma eficaz ao representar o vídeo inteiro com um conjunto de tokens semânticos não sobrepostos. Realizamos avaliações extensas das capacidades de compressão de tokens do LLaVA-Scissor em diversos benchmarks de compreensão de vídeo, incluindo questionários de vídeo, compreensão de vídeos longos e benchmarks abrangentes de múltipla escolha. Os resultados experimentais mostram que o LLaVA-Scissor proposto supera outros métodos de compressão de tokens, alcançando desempenho superior em vários benchmarks de compreensão de vídeo, especialmente em baixas taxas de retenção de tokens. Página do projeto: https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression strategy designed for video multimodal large language models. Previous methods mostly attempt to compress tokens based on attention scores, but fail to effectively capture all semantic regions and often lead to token redundancy. Differently, we propose to leverage the Semantic Connected Components (SCC) approach that assigns tokens to distinct semantic regions within the token set, ensuring comprehensive semantic coverage. The outcome is a two-step spatio-temporal token compression strategy that utilizes SCC in both spatial and temporal domains. This strategy can effectively compress tokens by representing the entire video with a set of non-overlapping semantic tokens. We conduct extensive evaluations of the token compression capabilities of LLaVA-Scissor across diverse video understanding benchmarks, including video question answering, long video understanding, and comprehensive multi-choices benchmarks. Experimental results show that the proposed LLaVA-Scissor outperforms other token compression methods, achieving superior performance in various video understanding benchmarks, particularly at low token retention ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.
PDF353June 30, 2025