POP : Élagage par Préremplissage Uniquement pour une Inférence Efficace des Grands Modèles

papers.abstract

Les modèles de langage de grande taille (LLM) et les modèles vision-langage (VLM) ont démontré des capacités remarquables. Cependant, leur déploiement est entravé par des coûts computationnels significatifs. Les méthodes existantes d'élagage structurel, bien qu'optimisées pour le matériel, souffrent souvent d'une dégradation importante de la précision. Dans cet article, nous soutenons que cet échec découle d'une approche d'élagage agnostique aux étapes, qui néglige les rôles asymétriques entre les phases de préremplissage (prefill) et de décodage (decode). En introduisant un mécanisme de porte virtuelle, notre analyse d'importance révèle que les couches profondes sont cruciales pour la prédiction du token suivant (décodage) mais largement redondantes pour l'encodage du contexte (préremplissage). En tirant parti de cette observation, nous proposons l'Élagage Uniquement en Préremplissage (POP), une stratégie d'inférence consciente des étapes qui omet en toute sécurité les couches profondes durant la phase de préremplissage, gourmande en calculs, tout en conservant le modèle complet pour la phase sensible du décodage. Pour permettre la transition entre les étapes, nous introduisons des projections Clé-Valeur (KV) indépendantes pour maintenir l'intégrité du cache, et une stratégie de gestion des limites pour garantir la précision du premier token généré. Des expériences approfondies sur Llama-3.1, Qwen3-VL et Gemma-3, couvrant diverses modalités, démontrent que POP atteint jusqu'à 1,37 fois d'accélération de la latence de préremplissage avec une perte de performance minimale, surmontant efficacement les limitations du compromis précision-efficacité des méthodes d'élagage structurel existantes.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP : Élagage par Préremplissage Uniquement pour une Inférence Efficace des Grands Modèles

POP: Prefill-Only Pruning for Efficient Large Model Inference

papers.abstract

Support