ChatPaper.aiChatPaper

VisionTrim: Compresión Unificada de Tokens Visuales para la Aceleración de MLLM sin Entrenamiento

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

January 30, 2026
Autores: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI

Resumen

Los modelos lingüísticos multimodales de gran escala (MLLM) presentan elevados costes computacionales debido al excesivo número de tokens visuales, especialmente en escenarios de alta resolución y basados en vídeo. Los métodos existentes de reducción de tokens suelen centrarse en componentes aislados del pipeline y frecuentemente descuidan la alineación textual, lo que genera una degradación del rendimiento. En este artículo proponemos VisionTrim, un marco unificado para la aceleración de MLLM sin necesidad de entrenamiento, que integra dos módulos efectivos de tipo plug-and-play: 1) el módulo de Selección de Tokens Visuales Dominantes (DVTS), que preserva tokens visuales esenciales mediante una vista global-local, y 2) el módulo de Complemento Visual Guiado por Texto (TGVC), que facilita la fusión de tokens consciente del contexto guiada por indicaciones textuales. Experimentos exhaustivos en diversos benchmarks multimodales de imagen y vídeo demuestran la superioridad de rendimiento de nuestro VisionTrim, impulsando la implementación práctica de MLLM en aplicaciones del mundo real. El código está disponible en: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.
PDF54March 12, 2026