POP: Potatura a Solo Prefill per Inferenza Efficiente di Modelli di Grande Dimensione

Abstract

I modelli linguistici di grandi dimensioni (LLM) e i modelli visione-linguaggio (VLM) hanno dimostrato capacità notevoli. Tuttavia, il loro utilizzo è ostacolato da costi computazionali significativi. I metodi di pruning strutturato esistenti, sebbene efficienti per l'hardware, spesso soffrono di una significativa degradazione dell'accuratezza. In questo articolo, sosteniamo che questo fallimento deriva da un approccio al pruning indipendente dallo stadio, che trascura i ruoli asimmetrici tra la fase di prefill e quella di decodifica. Introducendo un meccanismo di gate virtuale, la nostra analisi di importanza rivela che gli strati profondi sono critici per la predizione del token successivo (decodifica) ma largamente ridondanti per la codifica del contesto (prefill). Sfruttando questa intuizione, proponiamo il Prefill-Only Pruning (POP), una strategia di inferenza consapevole dello stadio che omette in sicurezza gli strati profondi durante la fase computazionalmente intensiva del prefill, conservando il modello completo per la fase sensibile della decodifica. Per abilitare la transizione tra le fasi, introduciamo proiezioni Chiave-Valore (KV) indipendenti per mantenere l'integrità della cache e una strategia di gestione del confine per garantire l'accuratezza del primo token generato. Esperimenti estensivi su Llama-3.1, Qwen3-VL e Gemma-3 su diverse modalità dimostrano che POP raggiunge un miglioramento fino a 1,37 volte nella latenza del prefill con una perdita di prestazione minima, superando efficacemente i limiti del compromesso accuratezza-efficienza dei metodi di pruning strutturato esistenti.

English

Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing structured pruning methods, while hardware-efficient, often suffer from significant accuracy degradation. In this paper, we argue that this failure stems from a stage-agnostic pruning approach that overlooks the asymmetric roles between the prefill and decode stages. By introducing a virtual gate mechanism, our importance analysis reveals that deep layers are critical for next-token prediction (decode) but largely redundant for context encoding (prefill). Leveraging this insight, we propose Prefill-Only Pruning (POP), a stage-aware inference strategy that safely omits deep layers during the computationally intensive prefill stage while retaining the full model for the sensitive decode stage. To enable the transition between stages, we introduce independent Key-Value (KV) projections to maintain cache integrity, and a boundary handling strategy to ensure the accuracy of the first generated token. Extensive experiments on Llama-3.1, Qwen3-VL, and Gemma-3 across diverse modalities demonstrate that POP achieves up to 1.37times speedup in prefill latency with minimal performance loss, effectively overcoming the accuracy-efficiency trade-off limitations of existing structured pruning methods.

POP: Potatura a Solo Prefill per Inferenza Efficiente di Modelli di Grande Dimensione

POP: Prefill-Only Pruning for Efficient Large Model Inference

Abstract

Support