VisionTrim: Унифицированное сжатие визуальных токенов для бесплатного от обучения ускорения MLLM
VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration
January 30, 2026
Авторы: Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) страдают от высоких вычислительных затрат из-за избыточного количества визуальных токенов, особенно в сценариях с высоким разрешением и видео. Существующие методы сокращения токенов обычно сосредоточены на изолированных компонентах конвейера и часто пренебрегают текстовым согласованием, что приводит к снижению производительности. В данной статье мы предлагаем VisionTrim — унифицированную структуру для ускорения MLLM без обучения, интегрирующую два эффективных модуля типа «plug-and-play»: 1) модуль выбора доминирующих визуальных токенов (DVTS), который сохраняет основные визуальные токены с помощью глобально-локального подхода, и 2) модуль текстово-ориентированного визуального дополнения (TGVC), который способствует контекстно-зависимому объединению токенов на основе текстовых подсказок. Многочисленные эксперименты на различных мультимодальных эталонах для изображений и видео демонстрируют превосходство производительности нашего метода VisionTrim, способствуя практическому внедрению MLLM в реальных приложениях. Код доступен по адресу: https://github.com/hanxunyu/VisionTrim.
English
Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via a global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.