ChatPaper.aiChatPaper

VisionTrim : Compression unifiée des tokens visuels pour l'accélération des MLLM sans entraînement

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

January 30, 2026
Auteurs: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI

Résumé

Les modèles de langage multimodaux (MLLM) souffrent de coûts computationnels élevés dus à un nombre excessif de tokens visuels, particulièrement dans les scénarios haute résolution et vidéo. Les méthodes existantes de réduction de tokens se concentrent généralement sur des composants isolés du pipeline et négligent souvent l'alignement textuel, entraînant une dégradation des performances. Dans cet article, nous proposons VisionTrim, un cadre unifié d'accélération des MLLM sans entraînement, intégrant deux modules plug-and-play efficaces : 1) le module de sélection des tokens visuels dominants (DVTS), qui préserve les tokens visuels essentiels via une vue globale-locale, et 2) le module de complément visuel guidé par le texte (TGVC), qui facilite la fusion contextuelle des tokens guidée par des indices textuels. Des expériences approfondies sur divers benchmarks multimodaux d'images et de vidéos démontrent la supériorité des performances de notre VisionTrim, faisant progresser le déploiement pratique des MLLM dans des applications réelles. Le code est disponible à l'adresse : https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.
PDF54March 12, 2026