POP: Prefill-Only Pruning voor Efficiënte Inferentie van Grote Modellen

Samenvatting

Grote Taalmodellen (LLM's) en Visie-Taalmodellen (VLM's) hebben opmerkelijke capaciteiten getoond. Hun inzet wordt echter belemmerd door aanzienlijke computationele kosten. Bestaande methoden voor gestructureerd snoeien, hoewel hardware-efficiënt, lijden vaak onder een significante nauwkeurigheidsafname. In dit artikel betogen wij dat dit falen voortkomt uit een fase-agnostische snoeiaanpak die de asymmetrische rollen tussen de prefill- en decodefase over het hoofd ziet. Door de introductie van een virtueel-gatemechanisme toont ons belanganalyse aan dat diepe lagen cruciaal zijn voor voorspelling van de volgende token (decode) maar grotendeels overbodig zijn voor contextcodering (prefill). Gebruikmakend van dit inzicht stellen wij Prefill-Only Pruning (POP) voor, een fase-bewuste inferentiestrategie die veilig diepe lagen weglaat tijdens de computationeel intensieve prefill-fase, terwijl het volledige model behouden blijft voor de gevoelige decode-fase. Om de overgang tussen fasen mogelijk te maken, introduceren wij onafhankelijke Key-Value (KV)-projecties om de cache-integriteit te behouden, en een boundary handling-strategie om de nauwkeurigheid van de eerste gegenereerde token te waarborgen. Uitgebreide experimenten met Llama-3.1, Qwen3-VL en Gemma-3 over diverse modaliteiten tonen aan dat POP een versnelling van de prefill-latentie tot 1,37 keer bereikt met minimaal prestatieverlies, waardoor de nauwkeurigheid-efficiëntie afweging van bestaande gestructureerde snoeimethoden effectief wordt overwonnen.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP: Prefill-Only Pruning voor Efficiënte Inferentie van Grote Modellen

POP: Prefill-Only Pruning for Efficient Large Model Inference

Samenvatting

Support