ChatPaper.aiChatPaper

VisionTrim: Einheitliche Kompression von Vision-Tokens für trainierungsfreie MLLM-Beschleunigung

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

January 30, 2026
Autoren: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) leiden unter hohen Rechenkosten aufgrund übermäßiger visueller Tokens, insbesondere in hochauflösenden und videobasierten Szenarien. Bestehende Token-Reduktionsmethoden konzentrieren sich typischerweise auf isolierte Pipeline-Komponenten und vernachlässigen oft die textuelle Ausrichtung, was zu Leistungseinbußen führt. In diesem Artikel schlagen wir VisionTrim vor, einen einheitlichen Rahmen für trainierungsfreie MLLM-Beschleunigung, der zwei effektive Plug-and-Play-Module integriert: 1) das Modul zur Dominanten Visuellen Token-Auswahl (DVTS), das essentielle visuelle Tokens mittels einer global-lokalen Betrachtung bewahrt, und 2) das Textgesteuerte Visuelle Ergänzungsmodul (TGVC), das kontextbewusstes Token-Zusammenführen anhand textueller Hinweise ermöglicht. Umfangreiche Experimente über diverse multimodale Bild- und Video-Benchmarks demonstrieren die Leistungsüberlegenheit unseres VisionTrim und fördern die praktische MLLM-Implementierung in realen Anwendungen. Der Code ist verfügbar unter: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.
PDF54March 12, 2026