MMInference : Accélération du pré-remplissage pour les VLMs à contexte long via une attention parcimonieuse modale par permutation
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
April 22, 2025
Auteurs: Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
cs.AI
Résumé
L'intégration des capacités de contexte long avec la compréhension visuelle débloque un potentiel sans précédent pour les modèles de langage visuel (VLMs). Cependant, la complexité quadratique de l'attention lors de la phase de pré-remplissage reste un obstacle majeur au déploiement en conditions réelles. Pour surmonter cette limitation, nous introduisons MMInference (Multimodality Million tokens Inference), une méthode d'attention dynamique parcimonieuse qui accélère l'étape de pré-remplissage pour les entrées multimodales à contexte long. D'abord, notre analyse révèle que la localité temporelle et spatiale des entrées vidéo conduit à un motif parcimonieux unique, le motif en grille. Parallèlement, les VLMs présentent des distributions parcimonieuses nettement différentes selon les modalités. Nous introduisons une méthode basée sur les permutations pour exploiter le motif en grille unique et gérer les problèmes de frontières entre modalités. En recherchant hors ligne les motifs parcimonieux optimaux pour chaque tête, MMInference construit dynamiquement la distribution parcimonieuse en fonction de l'entrée. Nous fournissons également des noyaux GPU optimisés pour des calculs parcimonieux efficaces. Notamment, MMInference s'intègre de manière transparente dans les pipelines existants de VLMs sans nécessiter de modifications du modèle ou de réglage fin. Les expériences sur des benchmarks multimodaux—incluant Video QA, Captioning, VisionNIAH, et Mixed-Modality NIAH—avec des VLMs à contexte long de pointe (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) montrent que MMInference accélère l'étape de pré-remplissage jusqu'à 8,3 fois pour 1 million de tokens tout en maintenant la précision. Notre code est disponible à l'adresse https://aka.ms/MMInference.
English
The integration of long-context capabilities with visual understanding
unlocks unprecedented potential for Vision Language Models (VLMs). However, the
quadratic attention complexity during the pre-filling phase remains a
significant obstacle to real-world deployment. To overcome this limitation, we
introduce MMInference (Multimodality Million tokens Inference), a dynamic
sparse attention method that accelerates the prefilling stage for long-context
multi-modal inputs. First, our analysis reveals that the temporal and spatial
locality of video input leads to a unique sparse pattern, the Grid pattern.
Simultaneously, VLMs exhibit markedly different sparse distributions across
different modalities. We introduce a permutation-based method to leverage the
unique Grid pattern and handle modality boundary issues. By offline search the
optimal sparse patterns for each head, MMInference constructs the sparse
distribution dynamically based on the input. We also provide optimized GPU
kernels for efficient sparse computations. Notably, MMInference integrates
seamlessly into existing VLM pipelines without any model modifications or
fine-tuning. Experiments on multi-modal benchmarks-including Video QA,
Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art
long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that
MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while
maintaining accuracy. Our code is available at https://aka.ms/MMInference.