MMInference : Accélération du pré-remplissage pour les VLMs à contexte long via une attention parcimonieuse modale par permutation

papers.abstract

L'intégration des capacités de contexte long avec la compréhension visuelle débloque un potentiel sans précédent pour les modèles de langage visuel (VLMs). Cependant, la complexité quadratique de l'attention lors de la phase de pré-remplissage reste un obstacle majeur au déploiement en conditions réelles. Pour surmonter cette limitation, nous introduisons MMInference (Multimodality Million tokens Inference), une méthode d'attention dynamique parcimonieuse qui accélère l'étape de pré-remplissage pour les entrées multimodales à contexte long. D'abord, notre analyse révèle que la localité temporelle et spatiale des entrées vidéo conduit à un motif parcimonieux unique, le motif en grille. Parallèlement, les VLMs présentent des distributions parcimonieuses nettement différentes selon les modalités. Nous introduisons une méthode basée sur les permutations pour exploiter le motif en grille unique et gérer les problèmes de frontières entre modalités. En recherchant hors ligne les motifs parcimonieux optimaux pour chaque tête, MMInference construit dynamiquement la distribution parcimonieuse en fonction de l'entrée. Nous fournissons également des noyaux GPU optimisés pour des calculs parcimonieux efficaces. Notamment, MMInference s'intègre de manière transparente dans les pipelines existants de VLMs sans nécessiter de modifications du modèle ou de réglage fin. Les expériences sur des benchmarks multimodaux—incluant Video QA, Captioning, VisionNIAH, et Mixed-Modality NIAH—avec des VLMs à contexte long de pointe (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) montrent que MMInference accélère l'étape de pré-remplissage jusqu'à 8,3 fois pour 1 million de tokens tout en maintenant la précision. Notre code est disponible à l'adresse https://aka.ms/MMInference.

English

The integration of long-context capabilities with visual understanding unlocks unprecedented potential for Vision Language Models (VLMs). However, the quadratic attention complexity during the pre-filling phase remains a significant obstacle to real-world deployment. To overcome this limitation, we introduce MMInference (Multimodality Million tokens Inference), a dynamic sparse attention method that accelerates the prefilling stage for long-context multi-modal inputs. First, our analysis reveals that the temporal and spatial locality of video input leads to a unique sparse pattern, the Grid pattern. Simultaneously, VLMs exhibit markedly different sparse distributions across different modalities. We introduce a permutation-based method to leverage the unique Grid pattern and handle modality boundary issues. By offline search the optimal sparse patterns for each head, MMInference constructs the sparse distribution dynamically based on the input. We also provide optimized GPU kernels for efficient sparse computations. Notably, MMInference integrates seamlessly into existing VLM pipelines without any model modifications or fine-tuning. Experiments on multi-modal benchmarks-including Video QA, Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while maintaining accuracy. Our code is available at https://aka.ms/MMInference.

MMInference : Accélération du pré-remplissage pour les VLMs à contexte long via une attention parcimonieuse modale par permutation

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

papers.abstract

Support