SparseMM: Разреженность головы возникает из откликов на визуальные концепции в MLLM
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
June 5, 2025
Авторы: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) обычно создаются путем расширения предварительно обученных больших языковых моделей (LLMs) за счет добавления визуальных возможностей. В данной работе мы исследуем, как MLLMs обрабатывают визуальные входные данные, анализируя их механизмы внимания. Мы обнаруживаем удивительный феномен разреженности: лишь небольшое подмножество (примерно менее 5%) голов внимания в LLMs активно участвует в понимании визуальной информации, что мы называем визуальными головами. Для эффективного выявления этих голов мы разрабатываем не требующий обучения фреймворк, который количественно оценивает визуальную значимость на уровне голов с помощью целевого анализа откликов. Опираясь на это открытие, мы представляем SparseMM — стратегию оптимизации KV-Cache, которая распределяет асимметричные вычислительные ресурсы между головами в LLMs на основе их визуальных оценок, используя разреженность визуальных голов для ускорения вывода MLLMs. В отличие от предыдущих методов ускорения KV-Cache, которые игнорируют специфику визуальной информации, SparseMM уделяет приоритетное внимание сохранению визуальной семантики в процессе декодирования. Обширные оценки на основных мультимодальных бенчмарках демонстрируют, что SparseMM достигает превосходного баланса между точностью и эффективностью. В частности, SparseMM обеспечивает ускорение в реальном времени в 1,38 раза и сокращение использования памяти на 52% в процессе генерации, сохраняя при этом производительность на уровне тестов эффективности. Наш проект доступен в открытом исходном коде по адресу https://github.com/CR400AF-A/SparseMM.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending
pre-trained Large Language Models (LLMs) with visual capabilities. In this
work, we investigate how MLLMs process visual inputs by analyzing their
attention mechanisms. We reveal a surprising sparsity phenomenon: only a small
subset (approximately less than 5%) of attention heads in LLMs actively
contribute to visual understanding, termed visual heads. To identify these
heads efficiently, we design a training-free framework that quantifies
head-level visual relevance through targeted response analysis. Building on
this discovery, we introduce SparseMM, a KV-Cache optimization strategy that
allocates asymmetric computation budgets to heads in LLMs based on their visual
scores, leveraging the sparity of visual heads for accelerating the inference
of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the
particularity of visual, SparseMM prioritizes stress and retaining visual
semantics during decoding. Extensive evaluations across mainstream multimodal
benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency
trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52%
memory reduction during generation while maintaining performance parity on
efficiency test. Our project is open sourced at
https://github.com/CR400AF-A/SparseMM.