Вам нужен энкодер для нативного кэширования, не зависящего от позиции.

Аннотация

Ключ-значение (KV) кеш больших языковых моделей (LLM) основан на префиксах, что делает его крайне неэффективным для обработки контекстов, извлекаемых в произвольном порядке. Для обеспечения повторного использования KV без позиционных ограничений была предложена позиционно-независимая кеширование (PIC), однако существующие подходы часто приводят к значительной деградации точности, ограничивая их практическое применение. Для решения этой проблемы мы предлагаем нативную PIC путем повторного введения энкодера в распространенные декодер-только LLM и явного обучения его для поддержки PIC. Мы также разработали COMB — систему кеширования с поддержкой PIC, которая бесшовно интегрируется с существующими фреймворками вывода. Экспериментальные результаты показывают, что COMB сокращает время до первого токена (TTFT) на 51–94% и увеличивает пропускную способность в 3 раза при сопоставимой точности. Кроме того, улучшение качества при использовании DeepSeek-V2-Lite-Chat демонстрирует применимость COMB к другим типам декодер-только LLM. Наш код доступен по адресу https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

Вам нужен энкодер для нативного кэширования, не зависящего от позиции.

You Need an Encoder for Native Position-Independent Caching

Аннотация

Support