VisionTrim: Verenigde Visuele Tokencompressie voor Trainingsvrije MLLM-versnelling
VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
January 30, 2026
Auteurs: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLM's) kampen met hoge rekenkosten door een overvloed aan visuele tokens, met name in scenario's met hoge resolutie en op video gebaseerde toepassingen. Bestaande methoden voor tokenreductie richten zich doorgaans op geïsoleerde pijplijnonderdelen en verwaarlozen vaak tekstuele afstemming, wat leidt tot prestatieverlies. In dit artikel presenteren we VisionTrim, een uniform raamwerk voor trainingsvrije MLLM-versnelling, dat twee effectieve plug-and-play modules integreert: 1) de Dominant Vision Token Selection (DVTS)-module, die essentiële visuele tokens behoudt via een globaal-lokaal perspectief, en 2) de Text-Guided Vision Complement (TGVC)-module, die contextbewuste tokensamenvoeging mogelijk maakt geleid door tekstuele aanwijzingen. Uitgebreide experimenten met diverse multimodale benchmarks voor afbeeldingen en video's tonen de prestatiesuperioriteit van onze VisionTrim aan, wat de praktische inzet van MLLM's in real-world toepassingen bevordert. De code is beschikbaar op: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.