SparseMM: Kopfsparsamkeit entsteht aus visuellen Konzeptantworten in MLLMs
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
Autoren: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) werden üblicherweise durch die Erweiterung vortrainierter Large Language Models (LLMs) um visuelle Fähigkeiten abgeleitet. In dieser Arbeit untersuchen wir, wie MLLMs visuelle Eingaben verarbeiten, indem wir ihre Aufmerksamkeitsmechanismen analysieren. Wir enthüllen ein überraschendes Sparsamkeitsphänomen: Nur eine kleine Teilmenge (etwa weniger als 5%) der Aufmerksamkeitsköpfe in LLMs trägt aktiv zum visuellen Verständnis bei, die als visuelle Köpfe bezeichnet werden. Um diese Köpfe effizient zu identifizieren, entwickeln wir ein trainingsfreies Framework, das die visuelle Relevanz auf Kopfebene durch gezielte Antwortanalysen quantifiziert. Aufbauend auf dieser Entdeckung führen wir SparseMM ein, eine KV-Cache-Optimierungsstrategie, die asymmetrische Rechenbudgets basierend auf den visuellen Scores an die Köpfe in LLMs zuweist und die Sparsamkeit der visuellen Köpfe nutzt, um die Inferenz von MLLMs zu beschleunigen. Im Vergleich zu früheren KV-Cache-Beschleunigungsmethoden, die die Besonderheiten des Visuellen ignorieren, priorisiert SparseMM die Betonung und Beibehaltung visueller Semantik während der Dekodierung. Umfangreiche Bewertungen über gängige multimodale Benchmarks zeigen, dass SparseMM überlegene Kompromisse zwischen Genauigkeit und Effizienz erreicht. Insbesondere bietet SparseMM eine 1,38-fache Echtzeitbeschleunigung und eine 52%ige Speicherreduzierung während der Generierung bei gleichbleibender Leistung in Effizienztests. Unser Projekt ist unter https://github.com/CR400AF-A/SparseMM quelloffen verfügbar.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.