SparseMM: A Esparsidade de Cabeças Emerge das Respostas a Conceitos Visuais em MLLMs
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
Autores: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são comumente derivados da extensão de Modelos de Linguagem de Grande Escala (LLMs) pré-treinados com capacidades visuais. Neste trabalho, investigamos como os MLLMs processam entradas visuais através da análise de seus mecanismos de atenção. Revelamos um fenômeno surpreendente de esparsidade: apenas um pequeno subconjunto (aproximadamente menos de 5%) das cabeças de atenção nos LLMs contribui ativamente para o entendimento visual, denominadas cabeças visuais. Para identificar essas cabeças de forma eficiente, projetamos uma estrutura livre de treinamento que quantifica a relevância visual no nível das cabeças por meio de análise de resposta direcionada. Com base nessa descoberta, introduzimos o SparseMM, uma estratégia de otimização de KV-Cache que aloca orçamentos de computação assimétricos para as cabeças nos LLMs com base em suas pontuações visuais, aproveitando a esparsidade das cabeças visuais para acelerar a inferência dos MLLMs. Em comparação com métodos anteriores de aceleração de KV-Cache que ignoram a particularidade do visual, o SparseMM prioriza o estresse e a retenção da semântica visual durante a decodificação. Avaliações extensas em benchmarks multimodais principais demonstram que o SparseMM alcança compensações superiores entre precisão e eficiência. Notavelmente, o SparseMM proporciona uma aceleração em tempo real de 1.38x e uma redução de 52% na memória durante a geração, mantendo a paridade de desempenho no teste de eficiência. Nosso projeto é de código aberto em https://github.com/CR400AF-A/SparseMM.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.