Ondiepe prefill, diepe decodering: efficiënte inferentie met lange context via laag-asymmetrische KV-zichtbaarheid

Samenvatting

Lang-context-inferentie in decoder-only-taalmodellen is kostbaar, omdat lange prompts tijdens de Prefill-fase worden verwerkt, in elke laag worden gecachet en tijdens de autoregressieve Decode-fase herhaaldelijk moeten worden aangezien. We introduceren Shallow Prefill, dEEp Decode (SPEED), een fase-asymmetrisch KV-zichtbaarheidsbeleid dat KV-toestanden van niet-anker prompt-tokens alleen in lagere lagen materialiseert, terwijl Decode-fase tokens volledige diepte behouden. In tegenstelling tot eerdere benaderingen die KV-toestanden van prompts in hogere lagen goedkoper maken om op te slaan of te construeren, verwijdert SPEED prefill-tokens volledig uit de Decode-zichtbaarheidsset van de hogere lagen. Met een minimale BoS-anker zorgt deze eenvoudige wijziging voor behoud van brede benchmarkkwaliteit terwijl de kosten voor lange context worden verlaagd. In een gecontroleerde Llama-3.1-8B instructieverfijningsstudie bereikt SPEED, dat slechts 75% van de lagen gebruikt voor prefill-tokens, een gemiddelde score van 51,2 op OLMES-achtige benchmarks, vergeleken met 51,4 voor de volledige-diepte-baseline, terwijl de TTFT met 33% verbetert, de TPOT met 22% en het actieve KV-geheugen met 25,0% vermindert bij een context van 128K. Laagsgewijze diagnostiek suggereert dat deze afkapgrens de belangrijkste promptselectie- en representatiestabilisatieregio's van het volledige-dieptemodel behoudt. Deze resultaten tonen aan dat prompt-tokens voor lange context niet altijd als volledige-diepte KV-cacheobjecten hoeven te blijven bestaan wanneer Decode-fase tokens volledige diepte behouden.

English

Long-context inference in decoder-only language models is costly because long prompts are processed during Prefill, cached at every layer, and repeatedly attended to during autoregressive Decode. We introduce Shallow Prefill, dEEp Decode (SPEED), a phase-asymmetric KV-visibility policy that materializes non-anchor prompt-token KV states only in lower layers while keeping Decode-phase tokens full-depth. Unlike previous approaches that make upper-layer prompt KV states cheaper to store or construct, SPEED removes prefill tokens from the upper-layer Decode visibility set altogether. With a minimal BoS anchor, this simple change preserves broad benchmark quality while reducing long-context cost. In a controlled Llama-3.1-8B instruction-tuning study, SPEED using only 75\% of layers for prefill tokens reaches 51.2 average score on OLMES-style benchmarks, compared with 51.4 for the full-depth baseline, while improving TTFT by 33\%, TPOT by 22\%, and reducing active KV memory by 25.0\% at 128K context. Layer-wise diagnostics suggest that this cutoff retains the main prompt-selection and representation-stabilization regions of the full-depth model. These results show that long-context prompt tokens need not always persist as full-depth KV-cache objects when Decode-phase tokens remain full-depth.

Ondiepe prefill, diepe decodering: efficiënte inferentie met lange context via laag-asymmetrische KV-zichtbaarheid

Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

Samenvatting

Support