KVCOMM: Online-Kommunikation von KV-Caches über Kontexte hinweg für effiziente Multi-Agenten-Systeme auf Basis von LLMs

papers.abstract

Multi-Agent-Systeme mit großen Sprachmodellen (LLMs) werden zunehmend für komplexe Sprachverarbeitungsaufgaben eingesetzt, die Kommunikation und Koordination zwischen Agenten erfordern. Diese Systeme leiden jedoch häufig unter erheblichem Overhead durch wiederholte Neuverarbeitung überlappender Kontexte zwischen den Agenten. In typischen Pipelines muss, sobald ein Agent eine Nachricht von seinem Vorgänger erhält, der vollständige Kontext – einschließlich vorheriger Dialogschritte – von Grund auf neu verarbeitet werden, was zu ineffizienter Verarbeitung führt. Während Key-Value (KV)-Caching eine effektive Lösung ist, um redundante Berechnungen in Einzel-Agenten-Szenarien zu vermeiden, in denen Präfixe unverändert bleiben, kann es in Multi-Agenten-Szenarien aufgrund divergierender Präfixe, die durch agentspezifische Kontexterweiterungen entstehen, nicht direkt wiederverwendet werden. Wir identifizieren, dass die Kernherausforderung in der Offset-Varianz von KV-Caches zwischen den Agenten liegt. Um dies zu adressieren, schlagen wir KVCOMM vor, ein trainingsfreies Framework, das effizientes Prefilling in der Multi-Agenten-Inferenz ermöglicht, indem es KV-Caches wiederverwendet und Cache-Offsets überlappender Kontexte unter verschiedenen Präfixkontexten ausrichtet. KVCOMM schätzt und passt KV-Caches für gemeinsame Inhalte an, indem es auf einen Pool von zwischengespeicherten Beispielen – sogenannte Anker – verweist, die beobachtete Cache-Abweichungen unter variierenden Präfixen speichern. Der Ankerpool wird online gepflegt und aktualisiert, was eine dynamische Anpassung an unterschiedliche Benutzeranfragen und Kontextstrukturen ermöglicht. KVCOMM erreicht eine Wiederverwendungsrate von über 70 % in verschiedenen Multi-Agenten-Workloads, einschließlich retrieval-augmentierter Generierung, mathematischem Reasoning und kollaborativen Codierungsaufgaben, ohne Qualitätseinbußen. Insbesondere wenn jeder vollständig verbundene Agent 1K Eingabe-Tokens mit 512 Präfix-Tokens und 512 Ausgabe-Tokens in einem Fünf-Agenten-Setting erhält, erreicht KVCOMM eine Beschleunigung von bis zu 7,8x im Vergleich zur Standard-Prefill-Pipeline und reduziert die TTFT von ~430 ms auf ~55 ms.

English

Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.

KVCOMM: Online-Kommunikation von KV-Caches über Kontexte hinweg für effiziente Multi-Agenten-Systeme auf Basis von LLMs

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

papers.abstract

Support