LLaVA-Tijeras: Compresión de Tokens con Componentes Conectados Semánticos para Modelos de Lenguaje de Video
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
June 27, 2025
Autores: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI
Resumen
En este artículo, presentamos LLaVA-Scissor, una estrategia de compresión de tokens sin entrenamiento diseñada para modelos de lenguaje multimodal de gran escala aplicados a videos. Los métodos anteriores intentan principalmente comprimir tokens basándose en puntuaciones de atención, pero no logran capturar de manera efectiva todas las regiones semánticas y a menudo resultan en redundancia de tokens. De manera diferente, proponemos aprovechar el enfoque de Componentes Conectados Semánticos (SCC, por sus siglas en inglés), que asigna tokens a regiones semánticas distintas dentro del conjunto de tokens, asegurando una cobertura semántica integral. El resultado es una estrategia de compresión espacio-temporal de tokens en dos pasos que utiliza SCC tanto en el dominio espacial como en el temporal. Esta estrategia puede comprimir tokens de manera efectiva al representar el video completo con un conjunto de tokens semánticos no superpuestos. Realizamos evaluaciones exhaustivas de las capacidades de compresión de tokens de LLaVA-Scissor en diversos puntos de referencia de comprensión de videos, incluyendo respuestas a preguntas sobre videos, comprensión de videos largos y puntos de referencia de opciones múltiples integrales. Los resultados experimentales muestran que el LLaVA-Scissor propuesto supera a otros métodos de compresión de tokens, logrando un rendimiento superior en varios puntos de referencia de comprensión de videos, particularmente en ratios bajos de retención de tokens. Página del proyecto: https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression
strategy designed for video multimodal large language models. Previous methods
mostly attempt to compress tokens based on attention scores, but fail to
effectively capture all semantic regions and often lead to token redundancy.
Differently, we propose to leverage the Semantic Connected Components (SCC)
approach that assigns tokens to distinct semantic regions within the token set,
ensuring comprehensive semantic coverage. The outcome is a two-step
spatio-temporal token compression strategy that utilizes SCC in both spatial
and temporal domains. This strategy can effectively compress tokens by
representing the entire video with a set of non-overlapping semantic tokens. We
conduct extensive evaluations of the token compression capabilities of
LLaVA-Scissor across diverse video understanding benchmarks, including video
question answering, long video understanding, and comprehensive multi-choices
benchmarks. Experimental results show that the proposed LLaVA-Scissor
outperforms other token compression methods, achieving superior performance in
various video understanding benchmarks, particularly at low token retention
ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.