ChatPaper.aiChatPaper

SparseMM: Разреженность головы возникает из откликов на визуальные концепции в MLLM

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

June 5, 2025
Авторы: Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) обычно создаются путем расширения предварительно обученных больших языковых моделей (LLMs) за счет добавления визуальных возможностей. В данной работе мы исследуем, как MLLMs обрабатывают визуальные входные данные, анализируя их механизмы внимания. Мы обнаруживаем удивительный феномен разреженности: лишь небольшое подмножество (примерно менее 5%) голов внимания в LLMs активно участвует в понимании визуальной информации, что мы называем визуальными головами. Для эффективного выявления этих голов мы разрабатываем не требующий обучения фреймворк, который количественно оценивает визуальную значимость на уровне голов с помощью целевого анализа откликов. Опираясь на это открытие, мы представляем SparseMM — стратегию оптимизации KV-Cache, которая распределяет асимметричные вычислительные ресурсы между головами в LLMs на основе их визуальных оценок, используя разреженность визуальных голов для ускорения вывода MLLMs. В отличие от предыдущих методов ускорения KV-Cache, которые игнорируют специфику визуальной информации, SparseMM уделяет приоритетное внимание сохранению визуальной семантики в процессе декодирования. Обширные оценки на основных мультимодальных бенчмарках демонстрируют, что SparseMM достигает превосходного баланса между точностью и эффективностью. В частности, SparseMM обеспечивает ускорение в реальном времени в 1,38 раза и сокращение использования памяти на 52% в процессе генерации, сохраняя при этом производительность на уровне тестов эффективности. Наш проект доступен в открытом исходном коде по адресу https://github.com/CR400AF-A/SparseMM.
English
Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Language Models (LLMs) with visual capabilities. In this work, we investigate how MLLMs process visual inputs by analyzing their attention mechanisms. We reveal a surprising sparsity phenomenon: only a small subset (approximately less than 5%) of attention heads in LLMs actively contribute to visual understanding, termed visual heads. To identify these heads efficiently, we design a training-free framework that quantifies head-level visual relevance through targeted response analysis. Building on this discovery, we introduce SparseMM, a KV-Cache optimization strategy that allocates asymmetric computation budgets to heads in LLMs based on their visual scores, leveraging the sparity of visual heads for accelerating the inference of MLLMs. Compared with prior KV-Cache acceleration methods that ignore the particularity of visual, SparseMM prioritizes stress and retaining visual semantics during decoding. Extensive evaluations across mainstream multimodal benchmarks demonstrate that SparseMM achieves superior accuracy-efficiency trade-offs. Notably, SparseMM delivers 1.38x real-time acceleration and 52% memory reduction during generation while maintaining performance parity on efficiency test. Our project is open sourced at https://github.com/CR400AF-A/SparseMM.
PDF150June 6, 2025