LLaVA-Scissor: Сжатие токенов с использованием семантически связанных компонентов для видеомоделей с большим языковым ядром
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs
June 27, 2025
Авторы: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI
Аннотация
В данной статье мы представляем LLaVA-Scissor — стратегию сжатия токенов, не требующую обучения, разработанную для видео-мультимодальных больших языковых моделей. Предыдущие методы в основном пытаются сжимать токены на основе оценок внимания, но не способны эффективно охватить все семантические области и часто приводят к избыточности токенов. В отличие от них, мы предлагаем использовать подход Semantic Connected Components (SCC), который распределяет токены по различным семантическим областям внутри набора токенов, обеспечивая полное семантическое покрытие. В результате получается двухэтапная стратегия пространственно-временного сжатия токенов, использующая SCC как в пространственной, так и во временной областях. Эта стратегия позволяет эффективно сжимать токены, представляя всё видео набором непересекающихся семантических токенов. Мы проводим обширные оценки возможностей сжатия токенов LLaVA-Scissor на различных бенчмарках для понимания видео, включая ответы на вопросы по видео, понимание длинных видео и комплексные бенчмарки с множественным выбором. Экспериментальные результаты показывают, что предложенный LLaVA-Scissor превосходит другие методы сжатия токенов, демонстрируя превосходную производительность на различных бенчмарках для понимания видео, особенно при низких коэффициентах удержания токенов. Страница проекта: https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression
strategy designed for video multimodal large language models. Previous methods
mostly attempt to compress tokens based on attention scores, but fail to
effectively capture all semantic regions and often lead to token redundancy.
Differently, we propose to leverage the Semantic Connected Components (SCC)
approach that assigns tokens to distinct semantic regions within the token set,
ensuring comprehensive semantic coverage. The outcome is a two-step
spatio-temporal token compression strategy that utilizes SCC in both spatial
and temporal domains. This strategy can effectively compress tokens by
representing the entire video with a set of non-overlapping semantic tokens. We
conduct extensive evaluations of the token compression capabilities of
LLaVA-Scissor across diverse video understanding benchmarks, including video
question answering, long video understanding, and comprehensive multi-choices
benchmarks. Experimental results show that the proposed LLaVA-Scissor
outperforms other token compression methods, achieving superior performance in
various video understanding benchmarks, particularly at low token retention
ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.