Você Precisa de um Codificador para Cache Nativo Independente de Posição

Resumo

O cache de Chave-Valor (KV) dos Modelos de Linguagem de Grande Porte (LLMs) é baseado em prefixos, tornando-o altamente ineficiente para processar contextos recuperados em ordem arbitrária. O Cache Independente de Posição (PIC) foi proposto para permitir a reutilização do KV sem restrições posicionais; no entanto, as abordagens existentes frequentemente incorrem em degradação substancial de precisão, limitando sua adoção prática. Para resolver este problema, propomos o PIC nativo ao reintroduzir o *encoder* aos LLMs somente-decodificador predominantes e explicitamente treiná-lo para suportar PIC. Desenvolvemos ainda o COMB, um sistema de cache consciente de PIC que se integra perfeitamente com *frameworks* de inferência existentes. Resultados experimentais mostram que o COMB reduz o Tempo-para-Primeiro-*Token* (TTFT) em 51-94% e aumenta a taxa de transferência em 3 vezes com precisão comparável. Adicionalmente, a melhoria de qualidade ao usar o DeepSeek-V2-Lite-Chat demonstra a aplicabilidade do COMB a outros tipos de LLMs somente-decodificador. Nosso código está disponível em https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

Você Precisa de um Codificador para Cache Nativo Independente de Posição

You Need an Encoder for Native Position-Independent Caching

Resumo

Support