KVCOMM: Comunicazione Online Cross-contesto della KV-cache per Sistemi Multi-agente Basati su LLM Efficienti

Abstract

I sistemi multi-agente basati su modelli linguistici di grandi dimensioni (LLM) sono sempre più adottati per compiti complessi di elaborazione del linguaggio che richiedono comunicazione e coordinamento tra agenti. Tuttavia, questi sistemi spesso subiscono un sovraccarico significativo a causa della ripetuta rielaborazione di contesti sovrapposti tra gli agenti. Nelle pipeline tipiche, una volta che un agente riceve un messaggio dal suo predecessore, l'intero contesto, inclusi i turni precedenti, deve essere rielaborato da zero, portando a un'elaborazione inefficiente. Sebbene la memorizzazione in cache chiave-valore (KV) sia una soluzione efficace per evitare calcoli ridondanti in contesti a singolo agente dove i prefissi rimangono invariati, non può essere riutilizzata direttamente in scenari multi-agente a causa della divergenza dei prefissi introdotta dalle estensioni di contesto specifiche per agente. Identifichiamo che la sfida principale risiede nella variazione degli offset delle cache KV tra gli agenti. Per affrontare questo problema, proponiamo KVCOMM, un framework senza necessità di addestramento che consente un riempimento preliminare efficiente nell'inferenza multi-agente riutilizzando le cache KV e allineando gli offset delle cache per contesti sovrapposti sotto diversi prefissi. KVCOMM stima e regola le cache KV per i contenuti condivisi facendo riferimento a un pool di esempi memorizzati in cache, denominati ancore, che conservano le deviazioni osservate delle cache sotto prefissi variabili. Il pool di ancore viene mantenuto e aggiornato online, consentendo un adattamento dinamico a richieste utente e strutture di contesto distinti. KVCOMM raggiunge un tasso di riutilizzo superiore al 70% su diversi carichi di lavoro multi-agente, inclusi la generazione aumentata da recupero, il ragionamento matematico e i compiti di codifica collaborativa, tutto senza degradazione della qualità. In particolare, quando ogni agente completamente connesso riceve 1K token di input con 512 token di prefisso e 512 token di output in un contesto a cinque agenti, KVCOMM ottiene un accelerazione fino a 7,8x rispetto alla pipeline standard di riempimento preliminare, riducendo il TTFT da ~430 ms a ~55 ms.

English

Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.

KVCOMM: Comunicazione Online Cross-contesto della KV-cache per Sistemi Multi-agente Basati su LLM Efficienti

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

Abstract

Support