VisionTrim: Compresión Unificada de Tokens Visuales para la Aceleración de MLLM sin Entrenamiento

Resumen

Los modelos lingüísticos multimodales de gran escala (MLLM) presentan elevados costes computacionales debido al excesivo número de tokens visuales, especialmente en escenarios de alta resolución y basados en vídeo. Los métodos existentes de reducción de tokens suelen centrarse en componentes aislados del pipeline y frecuentemente descuidan la alineación textual, lo que genera una degradación del rendimiento. En este artículo proponemos VisionTrim, un marco unificado para la aceleración de MLLM sin necesidad de entrenamiento, que integra dos módulos efectivos de tipo plug-and-play: 1) el módulo de Selección de Tokens Visuales Dominantes (DVTS), que preserva tokens visuales esenciales mediante una vista global-local, y 2) el módulo de Complemento Visual Guiado por Texto (TGVC), que facilita la fusión de tokens consciente del contexto guiada por indicaciones textuales. Experimentos exhaustivos en diversos benchmarks multimodales de imagen y vídeo demuestran la superioridad de rendimiento de nuestro VisionTrim, impulsando la implementación práctica de MLLM en aplicaciones del mundo real. El código está disponible en: https://github.com/hanxunyu/VisionTrim.

English

Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.