SparseMM : La parcimonie des têtes émerge des réponses aux concepts visuels dans les MLLM
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
Auteurs: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) sont généralement dérivés en étendant des modèles de langage de grande taille (LLMs) pré-entraînés avec des capacités visuelles. Dans ce travail, nous étudions comment les MLLMs traitent les entrées visuelles en analysant leurs mécanismes d'attention. Nous révélons un phénomène de parcimonie surprenant : seule une petite sous-ensemble (environ moins de 5 %) des têtes d'attention dans les LLMs contribue activement à la compréhension visuelle, appelées têtes visuelles. Pour identifier ces têtes efficacement, nous concevons un cadre sans entraînement qui quantifie la pertinence visuelle au niveau des têtes par une analyse ciblée des réponses. Sur la base de cette découverte, nous introduisons SparseMM, une stratégie d'optimisation du KV-Cache qui alloue des budgets de calcul asymétriques aux têtes des LLMs en fonction de leurs scores visuels, exploitant la parcimonie des têtes visuelles pour accélérer l'inférence des MLLMs. Par rapport aux méthodes d'accélération du KV-Cache antérieures qui ignorent la particularité visuelle, SparseMM priorise la préservation et le maintien de la sémantique visuelle pendant le décodage. Des évaluations approfondies sur des benchmarks multimodaux grand public démontrent que SparseMM atteint des compromis supérieurs entre précision et efficacité. Notamment, SparseMM offre une accélération en temps réel de 1,38x et une réduction de mémoire de 52 % pendant la génération tout en maintenant une performance équivalente lors des tests d'efficacité. Notre projet est open source à l'adresse https://github.com/CR400AF-A/SparseMM.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.