ChatPaper.aiChatPaper

SparseMM: マルチモーダル大規模言語モデルにおける視覚概念応答から生じるヘッドのスパース性

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

June 5, 2025
著者: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、通常、事前学習済みの大規模言語モデル(LLMs)を視覚能力で拡張することで導出されます。本研究では、MLLMsが視覚入力をどのように処理するかを、そのアテンションメカニズムを分析することで調査します。私たちは驚くべきスパース性現象を明らかにしました:LLMsのアテーションヘッドのうち、視覚理解に積極的に貢献するのはごく一部(約5%未満)であり、これを視覚ヘッドと呼びます。これらのヘッドを効率的に特定するために、ターゲット応答分析を通じてヘッドレベルの視覚的関連性を定量化するトレーニング不要のフレームワークを設計しました。この発見に基づいて、SparseMMを導入します。これは、視覚ヘッドのスパース性を活用してMLLMsの推論を加速するために、視覚スコアに基づいてLLMsのヘッドに非対称な計算予算を割り当てるKVキャッシュ最適化戦略です。視覚の特殊性を無視する従来のKVキャッシュ加速方法と比較して、SparseMMはデコード中の視覚的セマンティクスの強調と保持を優先します。主流のマルチモーダルベンチマークにわたる広範な評価により、SparseMMが優れた精度と効率のトレードオフを達成することが示されています。特に、SparseMMは生成中に1.38倍のリアルタイム加速と52%のメモリ削減を実現し、効率テストでの性能を維持します。私たちのプロジェクトはhttps://github.com/CR400AF-A/SparseMMでオープンソース化されています。
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Language Models (LLMs) with visual capabilities. In this work, we investigate how MLLMs process visual inputs by analyzing their attention mechanisms. We reveal a surprising sparsity phenomenon: only a small subset (approximately less than 5%) of attention heads in LLMs actively contribute to visual understanding, termed visual heads. To identify these heads efficiently, we design a training-free framework that quantifies head-level visual relevance through targeted response analysis. Building on this discovery, we introduce SparseMM, a KV-Cache optimization strategy that allocates asymmetric computation budgets to heads in LLMs based on their visual scores, leveraging the sparity of visual heads for accelerating the inference of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the particularity of visual, SparseMM prioritizes stress and retaining visual semantics during decoding. Extensive evaluations across mainstream multimodal benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52% memory reduction during generation while maintaining performance parity on efficiency test. Our project is open sourced at https://github.com/CR400AF-A/SparseMM.
PDF150June 6, 2025