ChatPaper.aiChatPaper

LLaVA-Scissor : Compression de tokens par composantes sémantiques connectées pour les modèles de langage vidéo

LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

June 27, 2025
Auteurs: Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
cs.AI

Résumé

Dans cet article, nous présentons LLaVA-Scissor, une stratégie de compression de tokens sans apprentissage conçue pour les modèles de langage multimodaux de grande taille appliqués aux vidéos. Les méthodes précédentes tentent principalement de compresser les tokens en se basant sur les scores d'attention, mais échouent à capturer efficacement toutes les régions sémantiques et conduisent souvent à une redondance des tokens. À l'inverse, nous proposons d'exploiter l'approche des Composants Connexes Sémantiques (SCC) qui attribue les tokens à des régions sémantiques distinctes au sein de l'ensemble des tokens, garantissant ainsi une couverture sémantique exhaustive. Le résultat est une stratégie de compression spatio-temporelle des tokens en deux étapes qui utilise les SCC à la fois dans les domaines spatial et temporel. Cette stratégie permet de compresser efficacement les tokens en représentant l'intégralité de la vidéo par un ensemble de tokens sémantiques non superposés. Nous menons des évaluations approfondies des capacités de compression de tokens de LLaVA-Scissor sur divers benchmarks de compréhension vidéo, incluant la réponse à des questions sur des vidéos, la compréhension de vidéos longues et des benchmarks complets à choix multiples. Les résultats expérimentaux montrent que LLaVA-Scissor surpasse les autres méthodes de compression de tokens, obtenant des performances supérieures dans divers benchmarks de compréhension vidéo, en particulier à des ratios de rétention de tokens faibles. Page du projet : https://github.com/HumanMLLM/LLaVA-Scissor.
English
In this paper, we present LLaVA-Scissor, a training-free token compression strategy designed for video multimodal large language models. Previous methods mostly attempt to compress tokens based on attention scores, but fail to effectively capture all semantic regions and often lead to token redundancy. Differently, we propose to leverage the Semantic Connected Components (SCC) approach that assigns tokens to distinct semantic regions within the token set, ensuring comprehensive semantic coverage. The outcome is a two-step spatio-temporal token compression strategy that utilizes SCC in both spatial and temporal domains. This strategy can effectively compress tokens by representing the entire video with a set of non-overlapping semantic tokens. We conduct extensive evaluations of the token compression capabilities of LLaVA-Scissor across diverse video understanding benchmarks, including video question answering, long video understanding, and comprehensive multi-choices benchmarks. Experimental results show that the proposed LLaVA-Scissor outperforms other token compression methods, achieving superior performance in various video understanding benchmarks, particularly at low token retention ratios. Project page: https://github.com/HumanMLLM/LLaVA-Scissor.
PDF313June 30, 2025