Vous avez besoin d'un encodeur pour la mise en cache native indépendante de la position

papers.abstract

Le cache clé-valeur (KV) des modèles de langage de grande taille (LLM) est basé sur les préfixes, ce qui le rend très inefficace pour traiter des contextes récupérés dans un ordre arbitraire. Le cache indépendant de la position (PIC) a été proposé pour permettre la réutilisation du KV sans contraintes positionnelles ; cependant, les approches existantes entraînent souvent une dégradation substantielle de la précision, limitant leur adoption pratique. Pour résoudre ce problème, nous proposons le PIC natif en réintroduisant l'encodeur dans les LLM décoder-only prédominants et en l'entraînant explicitement à prendre en charge le PIC. Nous développons également COMB, un système de cache compatible PIC qui s'intègre de manière transparente aux infrastructures d'inférence existantes. Les résultats expérimentaux montrent que COMB réduit le temps jusqu'au premier jeton (TTFT) de 51 à 94 % et augmente le débit d'un facteur 3 avec une précision comparable. De plus, l'amélioration de la qualité observée avec DeepSeek-V2-Lite-Chat démontre l'applicabilité de COMB à d'autres types de LLM décoder-only. Notre code est disponible à l'adresse https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

Vous avez besoin d'un encodeur pour la mise en cache native indépendante de la position

You Need an Encoder for Native Position-Independent Caching

papers.abstract

Support