ChatPaper.aiChatPaper

POP: 효율적인 대규모 모델 추론을 위한 사전 채움 전용 프루닝

POP: Prefill-Only Pruning for Efficient Large Model Inference

February 3, 2026
저자: Junhui He, Zhihui Fu, Jun Wang, Qingan Li
cs.AI

초록

대규모 언어 모델(LLM)과 비전-언어 모델(VLM)은 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델의 배포는 상당한 계산 비용으로 인해 제한되고 있습니다. 기존의 구조적 프루닝 방법은 하드웨어 효율성은 있지만, 종종 심각한 정확도 저하를 겪습니다. 본 논문에서는 이러한 문제가 프리필 단계와 디코드 단계 간의 비대칭적 역할을 간과하는 단계-불특정 프루닝 접근법에서 비롯된다고 주장합니다. 가상 게이트 메커니즘을 도입한 중요도 분석 결과, 딥 레이어가 다음 토큰 예측(디코드)에는 중요하지만 컨텍스트 인코딩(프리필)에는 대부분 불필요하다는 사실을 확인했습니다. 이러한 통찰력을 바탕으로, 계산 집약적인 프리필 단계에서는 딥 레이어를 안전하게 생략하면서 민감한 디코드 단계에서는 전체 모델을 유지하는 단계 인식 추론 전략인 Prefill-Only Pruning(POP)을 제안합니다. 단계 간 전환을 가능하게 하기 위해 캐시 무결성을 유지하는 독립적인 키-값(KV) 투영법과 첫 번째 생성 토큰의 정확성을 보장하는 경계 처리 전략을 도입했습니다. 다양한 모달리티에 걸쳐 Llama-3.1, Qwen3-VL, Gemma-3을 대상으로 한 폭넓은 실험을 통해 POP가 최소한의 성능 손실로 프리필 지연 시간을 최대 1.37배까지 단속할 수 있음을 입증하여, 기존 구조적 프루닝 방법의 정확도-효율성 트레이드오프 한계를 효과적으로 극복했습니다.
English
Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.
PDF31February 5, 2026