POP: Poda por Pré-preenchimento para Inferência Eficiente em Modelos Grandes

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) e os Modelos Visão-Linguagem (VLMs) demonstraram capacidades notáveis. No entanto, a sua implantação é dificultada por custos computacionais significativos. Os métodos de poda estruturada existentes, embora eficientes em termos de hardware, frequentemente sofrem com uma degradação significativa de precisão. Neste artigo, argumentamos que esta falha decorre de uma abordagem de poda agnóstica ao estágio, que ignora os papéis assimétricos entre as fases de preenchimento prévio (prefill) e decodificação (decode). Ao introduzir um mecanismo de porta virtual, a nossa análise de importância revela que as camadas profundas são críticas para a previsão do próximo token (decode), mas são largamente redundantes para a codificação de contexto (prefill). Aproveitando esta perceção, propomos a Poda Apenas de Preenchimento Prévio (POP), uma estratégia de inferência consciente do estágio que omite com segurança as camadas profundas durante a fase computacionalmente intensiva de prefill, mantendo o modelo completo para a fase sensível de decode. Para permitir a transição entre as fases, introduzimos projeções independentes de Chave-Valor (KV) para manter a integridade da cache, e uma estratégia de tratamento de limite para garantir a precisão do primeiro token gerado. Experimentos extensivos com Llama-3.1, Qwen3-VL e Gemma-3 em diversas modalidades demonstram que o POP até 1.37 vezes de aceleração na latência de prefill com perda de desempenho mínima, superando eficazmente as limitações de compromisso precisão-eficiência dos métodos de poda estruturada existentes.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP: Poda por Pré-preenchimento para Inferência Eficiente em Modelos Grandes

POP: Prefill-Only Pruning for Efficient Large Model Inference

Resumo

Support