Мелкий префилл, глубокое декодирование: эффективный вывод длинных контекстов с помощью асимметричной по слоям видимости KV

Аннотация

Декодерное инференсирование моделей с длинным контекстом требует больших затрат, поскольку длинные промпты обрабатываются на этапе префилла, кэшируются на каждом уровне и многократно участвуют во внимании на этапе автокорректирующего декода. Мы представляем метод Shallow Prefill, dEEp Decode (SPEED) — фазово-асимметричную политику видимости KV, которая материализует KV-состояния незакрепленных токенов промпта только в нижних слоях, сохраняя при этом полную глубину для токенов фазы декода. В отличие от предыдущих подходов, которые делают KV-состояния токенов промпта на верхних слоях более дешевыми для хранения или построения, SPEED полностью удаляет токены префилла из множества видимости на этапе декода для верхних слоев. При минимальном закреплении начального токена (BoS) это простое изменение сохраняет качество на широком наборе бенчмарков, одновременно снижая затраты на длинноконтекстную обработку. В контролируемом эксперименте по дообучению инструкциям на модели Llama-3.1-8B SPEED, использующий только 75% слоев для токенов префилла, достигает среднего балла 51,2 на бенчмарках типа OLMES по сравнению с 51,4 для полноглубинного базового варианта, при этом улучшая TTFT на 33%, TPOT на 22% и сокращая активную память KV на 25,0% при контексте в 128K. Анализ послойной диагностики показывает, что такое отсечение сохраняет основные области выбора промпта и стабилизации представления, присущие полноглубинной модели. Эти результаты демонстрируют, что длинноконтекстные токены промпта не обязательно должны постоянно присутствовать как полноглубинные объекты KV-кэша, если токены фазы декода остаются полноглубинными.

English

Long-context inference in decoder-only language models is costly because long prompts are processed during Prefill, cached at every layer, and repeatedly attended to during autoregressive Decode. We introduce Shallow Prefill, dEEp Decode (SPEED), a phase-asymmetric KV-visibility policy that materializes non-anchor prompt-token KV states only in lower layers while keeping Decode-phase tokens full-depth. Unlike previous approaches that make upper-layer prompt KV states cheaper to store or construct, SPEED removes prefill tokens from the upper-layer Decode visibility set altogether. With a minimal BoS anchor, this simple change preserves broad benchmark quality while reducing long-context cost. In a controlled Llama-3.1-8B instruction-tuning study, SPEED using only 75\% of layers for prefill tokens reaches 51.2 average score on OLMES-style benchmarks, compared with 51.4 for the full-depth baseline, while improving TTFT by 33\%, TPOT by 22\%, and reducing active KV memory by 25.0\% at 128K context. Layer-wise diagnostics suggest that this cutoff retains the main prompt-selection and representation-stabilization regions of the full-depth model. These results show that long-context prompt tokens need not always persist as full-depth KV-cache objects when Decode-phase tokens remain full-depth.

Мелкий префилл, глубокое декодирование: эффективный вывод длинных контекстов с помощью асимметричной по слоям видимости KV

Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

Аннотация

Support