VisionTrim: Compressione Unificata dei Token Visivi per l'Accelerazione Senza Addestramento dei MLLM
VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
January 30, 2026
Autori: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) soffrono di elevati costi computazionali dovuti all'eccessivo numero di token visivi, in particolare negli scenari ad alta risoluzione e basati su video. I metodi esistenti di riduzione dei token si concentrano tipicamente su componenti isolati della pipeline e spesso trascurano l'allineamento testuale, portando a un degrado delle prestazioni. In questo articolo, proponiamo VisionTrim, un framework unificato per l'accelerazione degli MLLM senza necessità di addestramento, che integra due moduli plug-and-play efficaci: 1) il modulo di Selezione dei Token Visivi Dominanti (DVTS), che preserva i token visivi essenziali attraverso una vista globale-locale, e 2) il modulo di Complemento Visivo Guidato dal Testo (TGVC), che facilita la fusione contestuale dei token guidata da indicazioni testuali. Esperimenti estesi su diversi benchmark multimodali per immagini e video dimostrano la superiorità prestazionale del nostro VisionTrim, promuovendo la diffusione pratica degli MLLM nelle applicazioni del mondo reale. Il codice è disponibile all'indirizzo: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.