MMInference: Acceleramento del Pre-riempimento per VLM a Contesto Lungo tramite Attenzione Sparsa con Permutazione Consapevole della Modalità
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention
April 22, 2025
Autori: Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
cs.AI
Abstract
L'integrazione di capacità a lungo contesto con la comprensione visiva sblocca un potenziale senza precedenti per i Modelli Linguistico-Visivi (VLMs). Tuttavia, la complessità quadratica dell'attenzione durante la fase di pre-riempimento rimane un ostacolo significativo per il dispiegamento nel mondo reale. Per superare questa limitazione, introduciamo MMInference (Multimodality Million tokens Inference), un metodo dinamico di attenzione sparsa che accelera la fase di pre-riempimento per input multimodali a lungo contesto. In primo luogo, la nostra analisi rivela che la località temporale e spaziale dell'input video porta a un pattern sparso unico, il pattern a griglia. Contemporaneamente, i VLMs mostrano distribuzioni sparse marcatamente diverse tra le diverse modalità. Introduciamo un metodo basato su permutazioni per sfruttare il pattern a griglia unico e gestire i problemi ai confini delle modalità. Ricercando offline i pattern sparsi ottimali per ciascuna testa, MMInference costruisce dinamicamente la distribuzione sparsa in base all'input. Forniamo anche kernel GPU ottimizzati per calcoli sparsi efficienti. È importante notare che MMInference si integra perfettamente nelle pipeline esistenti dei VLMs senza alcuna modifica del modello o fine-tuning. Esperimenti su benchmark multimodali, tra cui Video QA, Captioning, VisionNIAH e Mixed-Modality NIAH, con VLMs a lungo contesto all'avanguardia (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) mostrano che MMInference accelera la fase di pre-riempimento fino a 8.3x a 1M token mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://aka.ms/MMInference.
English
The integration of long-context capabilities with visual understanding
unlocks unprecedented potential for Vision Language Models (VLMs). However, the
quadratic attention complexity during the pre-filling phase remains a
significant obstacle to real-world deployment. To overcome this limitation, we
introduce MMInference (Multimodality Million tokens Inference), a dynamic
sparse attention method that accelerates the prefilling stage for long-context
multi-modal inputs. First, our analysis reveals that the temporal and spatial
locality of video input leads to a unique sparse pattern, the Grid pattern.
Simultaneously, VLMs exhibit markedly different sparse distributions across
different modalities. We introduce a permutation-based method to leverage the
unique Grid pattern and handle modality boundary issues. By offline search the
optimal sparse patterns for each head, MMInference constructs the sparse
distribution dynamically based on the input. We also provide optimized GPU
kernels for efficient sparse computations. Notably, MMInference integrates
seamlessly into existing VLM pipelines without any model modifications or
fine-tuning. Experiments on multi-modal benchmarks-including Video QA,
Captioning, VisionNIAH, and Mixed-Modality NIAH-with state-of-the-art
long-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) show that
MMInference accelerates the pre-filling stage by up to 8.3x at 1M tokens while
maintaining accuracy. Our code is available at https://aka.ms/MMInference.Summary
AI-Generated Summary