POP: Префилловое прореживание для эффективного вывода больших моделей

Аннотация

Крупные языковые модели (LLM) и модели «зрение-язык» (VLM) продемонстрировали впечатляющие возможности. Однако их развертыванию препятствуют значительные вычислительные затраты. Существующие методы структурированного прунинга, хотя и эффективны с точки зрения аппаратного обеспечения, часто страдают от существенной деградации точности. В данной статье мы утверждаем, что эта неудача проистекает из этапно-агностического подхода к прунингу, который игнорирует асимметричные роли этапов предварительного заполнения (prefill) и декодирования (decode). Благодаря введению механизма виртуального гейта наш анализ важности показывает, что глубокие слои критически важны для предсказания следующего токена (декодирование), но в значительной степени избыточны для кодирования контекста (предварительное заполнение). Используя это наблюдение, мы предлагаем Прунинг Только для Предварительного Заполнения (POP) — стратегию вывода, учитывающую этапы, которая безопасно пропускает глубокие слои на вычислительно интенсивном этапе предварительного заполнения, сохраняя при этом полную модель для чувствительного этапа декодирования. Для обеспечения перехода между этапами мы вводим независимые проекции Ключ-Значение (KV) для сохранения целостности кэша и стратегию обработки границы для обеспечения точности первого генерируемого токена. Масштабные эксперименты на моделях Llama-3.1, Qwen3-VL и Gemma-3 в различных модальностях демонстрируют, что POP достигает ускорения задержки предварительного заполнения до 1.37 раза при минимальной потере производительности, эффективно преодолевая ограничения компромисса «точность-эффективность», присущие существующим методам структурированного прунинга.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP: Префилловое прореживание для эффективного вывода больших моделей

POP: Prefill-Only Pruning for Efficient Large Model Inference

Аннотация

Support