ChatPaper.aiChatPaper

SparseMM: A Esparsidade de Cabeças Emerge das Respostas a Conceitos Visuais em MLLMs

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

June 5, 2025
Autores: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são comumente derivados da extensão de Modelos de Linguagem de Grande Escala (LLMs) pré-treinados com capacidades visuais. Neste trabalho, investigamos como os MLLMs processam entradas visuais através da análise de seus mecanismos de atenção. Revelamos um fenômeno surpreendente de esparsidade: apenas um pequeno subconjunto (aproximadamente menos de 5%) das cabeças de atenção nos LLMs contribui ativamente para o entendimento visual, denominadas cabeças visuais. Para identificar essas cabeças de forma eficiente, projetamos uma estrutura livre de treinamento que quantifica a relevância visual no nível das cabeças por meio de análise de resposta direcionada. Com base nessa descoberta, introduzimos o SparseMM, uma estratégia de otimização de KV-Cache que aloca orçamentos de computação assimétricos para as cabeças nos LLMs com base em suas pontuações visuais, aproveitando a esparsidade das cabeças visuais para acelerar a inferência dos MLLMs. Em comparação com métodos anteriores de aceleração de KV-Cache que ignoram a particularidade do visual, o SparseMM prioriza o estresse e a retenção da semântica visual durante a decodificação. Avaliações extensas em benchmarks multimodais principais demonstram que o SparseMM alcança compensações superiores entre precisão e eficiência. Notavelmente, o SparseMM proporciona uma aceleração em tempo real de 1.38x e uma redução de 52% na memória durante a geração, mantendo a paridade de desempenho no teste de eficiência. Nosso projeto é de código aberto em https://github.com/CR400AF-A/SparseMM.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Language Models (LLMs) with visual capabilities. In this work, we investigate how MLLMs process visual inputs by analyzing their attention mechanisms. We reveal a surprising sparsity phenomenon: only a small subset (approximately less than 5%) of attention heads in LLMs actively contribute to visual understanding, termed visual heads. To identify these heads efficiently, we design a training-free framework that quantifies head-level visual relevance through targeted response analysis. Building on this discovery, we introduce SparseMM, a KV-Cache optimization strategy that allocates asymmetric computation budgets to heads in LLMs based on their visual scores, leveraging the sparity of visual heads for accelerating the inference of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the particularity of visual, SparseMM prioritizes stress and retaining visual semantics during decoding. Extensive evaluations across mainstream multimodal benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52% memory reduction during generation while maintaining performance parity on efficiency test. Our project is open sourced at https://github.com/CR400AF-A/SparseMM.
PDF160June 6, 2025