VisionTrim: Einheitliche Kompression von Vision-Tokens für trainierungsfreie MLLM-Beschleunigung

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) leiden unter hohen Rechenkosten aufgrund übermäßiger visueller Tokens, insbesondere in hochauflösenden und videobasierten Szenarien. Bestehende Token-Reduktionsmethoden konzentrieren sich typischerweise auf isolierte Pipeline-Komponenten und vernachlässigen oft die textuelle Ausrichtung, was zu Leistungseinbußen führt. In diesem Artikel schlagen wir VisionTrim vor, einen einheitlichen Rahmen für trainierungsfreie MLLM-Beschleunigung, der zwei effektive Plug-and-Play-Module integriert: 1) das Modul zur Dominanten Visuellen Token-Auswahl (DVTS), das essentielle visuelle Tokens mittels einer global-lokalen Betrachtung bewahrt, und 2) das Textgesteuerte Visuelle Ergänzungsmodul (TGVC), das kontextbewusstes Token-Zusammenführen anhand textueller Hinweise ermöglicht. Umfangreiche Experimente über diverse multimodale Bild- und Video-Benchmarks demonstrieren die Leistungsüberlegenheit unseres VisionTrim und fördern die praktische MLLM-Implementierung in realen Anwendungen. Der Code ist verfügbar unter: https://github.com/hanxunyu/VisionTrim.

English

Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.

VisionTrim: Einheitliche Kompression von Vision-Tokens für trainierungsfreie MLLM-Beschleunigung

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Zusammenfassung

Support