MMInference: Ускорение предварительного заполнения для VLMs с длинным контекстом с помощью модально-ориентированной перестановочной разреженной внимательности
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
April 22, 2025
Авторы: Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
cs.AI
Аннотация
Интеграция возможностей работы с длинным контекстом и визуального понимания открывает беспрецедентный потенциал для моделей Vision Language Models (VLMs). Однако квадратичная сложность внимания на этапе предварительного заполнения остается значительным препятствием для практического применения. Чтобы преодолеть это ограничение, мы представляем MMInference (Multimodality Million tokens Inference) — метод динамического разреженного внимания, который ускоряет этап предварительного заполнения для многомодальных входных данных с длинным контекстом. Во-первых, наш анализ показывает, что временная и пространственная локальность видеовходов приводит к уникальному разреженному паттерну — Grid-паттерну. Одновременно VLMs демонстрируют заметно разные распределения разреженности для различных модальностей. Мы предлагаем метод на основе перестановок, который использует уникальный Grid-паттерн и решает проблемы границ модальностей. С помощью оффлайн-поиска оптимальных разреженных паттернов для каждого внимания MMInference динамически строит распределение разреженности на основе входных данных. Мы также предоставляем оптимизированные GPU-ядра для эффективных разреженных вычислений. Важно отметить, что MMInference легко интегрируется в существующие VLM-конвейеры без необходимости модификации моделей или дообучения. Эксперименты на многомодальных бенчмарках, включая Video QA, Captioning, VisionNIAH и Mixed-Modality NIAH, с использованием современных VLMs с длинным контекстом (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL), показывают, что MMInference ускоряет этап предварительного заполнения до 8.3 раз при 1 миллионе токенов, сохраняя точность. Наш код доступен по ссылке: https://aka.ms/MMInference.
English
The integration of long-context capabilities with visual understanding
unlocks unprecedented potential for Vision Language Models (VLMs). However, the
quadratic attention complexity during the pre-filling phase remains a
significant obstacle to real-world deployment. To overcome this limitation, we
introduce MMInference (Multimodality Million tokens Inference), a dynamic
sparse attention method that accelerates the prefilling stage for long-context
multi-modal inputs. First, our analysis reveals that the temporal and spatial
locality of video input leads to a unique sparse pattern, the Grid pattern.
Simultaneously, VLMs exhibit markedly different sparse distributions across
different modalities. We introduce a permutation-based method to leverage the
unique Grid pattern and handle modality boundary issues. By offline search the
optimal sparse patterns for each head, MMInference constructs the sparse
distribution dynamically based on the input. We also provide optimized GPU
kernels for efficient sparse computations. Notably, MMInference integrates
seamlessly into existing VLM pipelines without any model modifications or
fine-tuning. Experiments on multi-modal benchmarks-including Video QA,
Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art
long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that
MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while
maintaining accuracy. Our code is available at https://aka.ms/MMInference.Summary
AI-Generated Summary