Necesitas un Codificador para el Almacenamiento en Caché Independiente de la Posición Nativa

Resumen

La caché de clave-valor (KV) de los Modelos de Lenguaje Grandes (LLMs) está basada en prefijos, lo que la hace altamente ineficiente para procesar contextos recuperados en orden arbitrario. Se ha propuesto el Almacenamiento en Caché Independiente de la Posición (PIC) para permitir la reutilización de KV sin restricciones posicionales; sin embargo, los enfoques existentes a menudo conllevan una degradación sustancial de la precisión, lo que limita su adopción práctica. Para abordar este problema, proponemos un PIC nativo mediante la reintroducción de un codificador en los LLMs prevalentes que solo tienen decodificador, entrenándolo explícitamente para admitir PIC. Además, desarrollamos COMB, un sistema de almacenamiento en caché consciente de PIC que se integra perfectamente con los marcos de inferencia existentes. Los resultados experimentales muestran que COMB reduce el Tiempo hasta el Primer Token (TTFT) entre un 51% y un 94% y aumenta el rendimiento en 3 veces con una precisión comparable. Además, la mejora de calidad al utilizar DeepSeek-V2-Lite-Chat demuestra la aplicabilidad de COMB a otros tipos de LLMs que solo tienen decodificador. Nuestro código está disponible en https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

Necesitas un Codificador para el Almacenamiento en Caché Independiente de la Posición Nativa

You Need an Encoder for Native Position-Independent Caching

Resumen

Support