SparseMM: マルチモーダル大規模言語モデルにおける視覚概念応答から生じるヘッドのスパース性
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
著者: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、通常、事前学習済みの大規模言語モデル(LLMs)を視覚能力で拡張することで導出されます。本研究では、MLLMsが視覚入力をどのように処理するかを、そのアテンションメカニズムを分析することで調査します。私たちは驚くべきスパース性現象を明らかにしました:LLMsのアテーションヘッドのうち、視覚理解に積極的に貢献するのはごく一部(約5%未満)であり、これを視覚ヘッドと呼びます。これらのヘッドを効率的に特定するために、ターゲット応答分析を通じてヘッドレベルの視覚的関連性を定量化するトレーニング不要のフレームワークを設計しました。この発見に基づいて、SparseMMを導入します。これは、視覚ヘッドのスパース性を活用してMLLMsの推論を加速するために、視覚スコアに基づいてLLMsのヘッドに非対称な計算予算を割り当てるKVキャッシュ最適化戦略です。視覚の特殊性を無視する従来のKVキャッシュ加速方法と比較して、SparseMMはデコード中の視覚的セマンティクスの強調と保持を優先します。主流のマルチモーダルベンチマークにわたる広範な評価により、SparseMMが優れた精度と効率のトレードオフを達成することが示されています。特に、SparseMMは生成中に1.38倍のリアルタイム加速と52%のメモリ削減を実現し、効率テストでの性能を維持します。私たちのプロジェクトはhttps://github.com/CR400AF-A/SparseMMでオープンソース化されています。
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.