Prompt Cache: Modulaire Hergebruik van Aandacht voor Inferentie met Lage Latentie

Samenvatting

We presenteren Prompt Cache, een aanpak voor het versnellen van inferentie voor grote taalmodelen (LLM) door aandachtstoestanden te hergebruiken bij verschillende LLM-prompts. Veel invoerprompts hebben overlappende tekstsegmenten, zoals systeemberichten, promptsjablonen en documenten die als context worden aangeboden. Onze belangrijkste inzicht is dat door het vooraf berekenen en opslaan van de aandachtstoestanden van deze vaak voorkomende tekstsegmenten op de inferentieserver, we deze efficiënt kunnen hergebruiken wanneer deze segmenten in gebruikersprompts verschijnen. Prompt Cache maakt gebruik van een schema om dergelijke herbruikbare tekstsegmenten, genaamd promptmodules, expliciet te definiëren. Het schema zorgt voor positionele nauwkeurigheid tijdens het hergebruik van aandachtstoestanden en biedt gebruikers een interface om gecachte toestanden in hun prompt te benaderen. Met behulp van een prototype-implementatie evalueren we Prompt Cache over verschillende LLM's. We tonen aan dat Prompt Cache de latentie in de tijd-tot-eerste-token aanzienlijk vermindert, vooral bij langere prompts zoals documentgebaseerde vraagbeantwoording en aanbevelingen. De verbeteringen variëren van 8x voor GPU-gebaseerde inferentie tot 60x voor CPU-gebaseerde inferentie, allemaal terwijl de uitvoernauwkeurigheid behouden blijft en zonder dat aanpassingen aan modelparameters nodig zijn.

English

We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and documents provided for context. Our key insight is that by precomputing and storing the attention states of these frequently occurring text segments on the inference server, we can efficiently reuse them when these segments appear in user prompts. Prompt Cache employs a schema to explicitly define such reusable text segments, called prompt modules. The schema ensures positional accuracy during attention state reuse and provides users with an interface to access cached states in their prompt. Using a prototype implementation, we evaluate Prompt Cache across several LLMs. We show that Prompt Cache significantly reduce latency in time-to-first-token, especially for longer prompts such as document-based question answering and recommendations. The improvements range from 8x for GPU-based inference to 60x for CPU-based inference, all while maintaining output accuracy and without the need for model parameter modifications.

Prompt Cache: Modulaire Hergebruik van Aandacht voor Inferentie met Lage Latentie

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Samenvatting

Support