ChatPaper.aiChatPaper

POP: Prefill-Only Pruning für effiziente Inferenz großer Modelle

POP: Prefill-Only Pruning for Efficient Large Model Inference

February 3, 2026
papers.authors: Junhui He, Zhihui Fu, Jun Wang, Qingan Li
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) und Vision-Sprach-Modelle (VLMs) haben bemerkenswerte Fähigkeiten demonstriert. Ihre Bereitstellung wird jedoch durch erhebliche Rechenkosten behindert. Bestehende strukturierte Pruning-Methoden sind zwar hardwareeffizient, leiden aber oft unter erheblichen Genauigkeitseinbußen. In diesem Artikel argumentieren wir, dass dieses Versagen auf einen stufenagnostischen Pruning-Ansatz zurückzuführen ist, der die asymmetrischen Rollen zwischen der Prefill- und der Decode-Phase übersieht. Durch die Einführung eines virtuellen Gate-Mechanismus zeigt unsere Bedeutunganalyse, dass tiefe Schichten entscheidend für die Next-Token-Prädiktion (Decode) sind, aber weitgehend redundant für die Kontextkodierung (Prefill) bleiben. Gestützt auf diese Erkenntnis schlagen wir Prefill-Only Pruning (POP) vor, eine stufenbewusste Inferenzstrategie, die tiefe Schichten während der rechenintensiven Prefill-Phase sicher auslässt, während das vollständige Modell für die sensible Decode-Phase erhalten bleibt. Um den Übergang zwischen den Phasen zu ermöglichen, führen wir unabhängige Key-Value (KV)-Projektionen zur Aufrechterhaltung der Cache-Integrität sowie eine Strategie zur Behandlung der Phasengrenze ein, um die Genauigkeit des ersten generierten Tokens sicherzustellen. Umfangreiche Experimente mit Llama-3.1, Qwen3-VL und Gemma-3 über verschiedene Modalitäten hinweg zeigen, dass POP eine Beschleunigung der Prefill-Latenz um bis zum 1,37-fachen bei minimalem Leistungsverlust erreicht und so die Grenzen des Accuracy-Efficiency-Trade-offs bestehender strukturierter Pruning-Methoden effektiv überwindet.
English
Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.
PDF31February 5, 2026