ChatPaper.aiChatPaper

POP: 効率的な大規模モデル推論のための事前埋め込みのみの枝刈り

POP: Prefill-Only Pruning for Efficient Large Model Inference

February 3, 2026
著者: Junhui He, Zhihui Fu, Jun Wang, Qingan Li
cs.AI

要旨

大規模言語モデル(LLM)と視覚言語モデル(VLM)は、驚くべき能力を発揮している。しかし、その導入は大きな計算コストによって妨げられている。既存の構造化プルーニング手法は、ハードウェア効率に優れるものの、精度の大幅な低下がしばしば生じる。本論文では、この問題は、プレフィル段階とデコード段階の非対称的な役割を見落とした、段階を考慮しないプルーニングアプローチに起因すると論じる。仮想ゲート機構を導入することで行った重要度分析により、深い層は次のトークン予測(デコード)には重要であるが、文脈符号化(プレフィル)にはほぼ冗長であることが明らかになった。この知見を活かし、我々はPrefill-Only Pruning(POP)を提案する。これは、計算負荷の高いプレフィル段階では安全に深い層を省略し、敏感なデコード段階では完全なモデルを維持する、段階を考慮した推論戦略である。段階間の移行を可能にするため、キャッシュの整合性を保つ独立したKey-Value(KV)射影と、最初に生成されるトークンの精度を保証する境界処理戦略を導入する。様々なモダリティにわたるLlama-3.1、Qwen3-VL、Gemma-3を用いた大規模な実験により、POPが既存の構造化プルーニング手法の精度と効率性のトレードオックという限界を克服し、プレフィル遅延を最大1.37倍高速化しつつ、性能低下を最小限に抑えられることが実証された。
English
Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.
PDF43February 8, 2026