VisionTrim: Compressão Unificada de Tokens Visuais para Aceleração de MLLM sem Necessidade de Treinamento
VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
January 30, 2026
Autores: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
Resumo
Os modelos de linguagem multimodal de grande escala (MLLMs) enfrentam custos computacionais elevados devido ao excesso de tokens visuais, particularmente em cenários de alta resolução e baseados em vídeo. Os métodos de redução de tokens existentes geralmente concentram-se em componentes isolados do pipeline e frequentemente negligenciam o alinhamento textual, resultando em degradação de desempenho. Neste artigo, propomos o VisionTrim, um framework unificado para aceleração de MLLMs sem necessidade de treinamento, integrando dois módulos eficazes de plug-and-play: 1) o módulo de Seleção de Tokens Visuais Dominantes (DVTS), que preserva tokens visuais essenciais através de uma visão global-local, e 2) o módulo de Complemento Visual Guiado por Texto (TGVC), que facilita a fusão de tokens consciente do contexto orientada por pistas textuais. Experimentos extensos em diversos benchmarks multimodais de imagem e vídeo demonstram a superioridade de desempenho do nosso VisionTrim, avançando a implantação prática de MLLMs em aplicações do mundo real. O código está disponível em: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.