SparseMM: 다중모달 대형 언어 모델에서 시각적 개념 반응으로부터 나타나는 헤드 희소성
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
저자: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 일반적으로 사전 훈련된 대형 언어 모델(LLMs)에 시각적 능력을 확장하여 파생됩니다. 본 연구에서는 MLLMs가 시각적 입력을 처리하는 방식을 주의 메커니즘을 분석하여 조사합니다. 우리는 놀라운 희소성 현상을 발견했습니다: LLMs의 주의 헤드 중 일부(약 5% 미만)만이 시각적 이해에 적극적으로 기여하며, 이를 시각적 헤드라고 명명했습니다. 이러한 헤드를 효율적으로 식별하기 위해, 우리는 대상 응답 분석을 통해 헤드 수준의 시각적 관련성을 정량화하는 훈련이 필요 없는 프레임워크를 설계했습니다. 이 발견을 바탕으로, 우리는 SparseMM을 소개합니다. 이는 시각적 헤드의 희소성을 활용하여 MLLMs의 추론을 가속화하기 위해 LLMs의 헤드에 비대칭적인 계산 예산을 할당하는 KV-Cache 최적화 전략입니다. 시각적 특성을 무시한 기존의 KV-Cache 가속 방법과 비교하여, SparseMM은 디코딩 과정에서 시각적 의미를 우선적으로 강조하고 유지합니다. 주류 멀티모달 벤치마크에 대한 광범위한 평가를 통해 SparseMM이 우수한 정확도-효율성 균형을 달성함을 입증했습니다. 특히, SparseMM은 실시간 1.38배 가속과 생성 과정에서 52%의 메모리 감소를 제공하면서도 효율성 테스트에서 성능을 유지합니다. 우리의 프로젝트는 https://github.com/CR400AF-A/SparseMM에서 오픈 소스로 제공됩니다.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.