POP: Poda de Solo Prellenado para una Inferencia Eficiente de Modelos Grandes

Resumen

Los Modelos de Lenguaje Grande (LLM) y los Modelos de Lenguaje Visual (VLM) han demostrado capacidades notables. Sin embargo, su despliegue se ve obstaculizado por costos computacionales significativos. Los métodos existentes de poda estructurada, aunque eficientes para el hardware, a menudo sufren una degradación significativa de la precisión. En este artículo, argumentamos que este fracaso se origina en un enfoque de poda independiente de la etapa que pasa por alto los roles asimétricos entre las etapas de prellenado (prefill) y decodificación (decode). Mediante la introducción de un mecanismo de compuerta virtual, nuestro análisis de importancia revela que las capas profundas son críticas para la predicción del siguiente token (decode) pero en gran medida redundantes para la codificación del contexto (prefill). Aprovechando esta percepción, proponemos Poda Solo de Prellenado (POP), una estrategia de inferencia consciente de la etapa que omite de forma segura las capas profundas durante la etapa de prellenado, computacionalmente intensiva, mientras retiene el modelo completo para la etapa sensible de decodificación. Para permitir la transición entre etapas, introducimos proyecciones independientes de Clave-Valor (KV) para mantener la integridad de la caché, y una estrategia de manejo de límites para garantizar la precisión del primer token generado. Experimentos exhaustivos en Llama-3.1, Qwen3-VL y Gemma-3 a través de diversas modalidades demuestran que POP logra una aceleración de hasta 1.37 veces en la latencia de prellenado con una pérdida de rendimiento mínima, superando efectivamente las limitaciones de compensación entre precisión y eficiencia de los métodos de poda estructurada existentes.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP: Poda de Solo Prellenado para una Inferencia Eficiente de Modelos Grandes

POP: Prefill-Only Pruning for Efficient Large Model Inference

Resumen

Support