KVCOMM: Online-Kommunikation von KV-Caches über Kontexte hinweg für effiziente Multi-Agenten-Systeme auf Basis von LLMs
KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems
October 14, 2025
papers.authors: Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
cs.AI
papers.abstract
Multi-Agent-Systeme mit großen Sprachmodellen (LLMs) werden zunehmend für komplexe Sprachverarbeitungsaufgaben eingesetzt, die Kommunikation und Koordination zwischen Agenten erfordern. Diese Systeme leiden jedoch häufig unter erheblichem Overhead durch wiederholte Neuverarbeitung überlappender Kontexte zwischen den Agenten. In typischen Pipelines muss, sobald ein Agent eine Nachricht von seinem Vorgänger erhält, der vollständige Kontext – einschließlich vorheriger Dialogschritte – von Grund auf neu verarbeitet werden, was zu ineffizienter Verarbeitung führt. Während Key-Value (KV)-Caching eine effektive Lösung ist, um redundante Berechnungen in Einzel-Agenten-Szenarien zu vermeiden, in denen Präfixe unverändert bleiben, kann es in Multi-Agenten-Szenarien aufgrund divergierender Präfixe, die durch agentspezifische Kontexterweiterungen entstehen, nicht direkt wiederverwendet werden. Wir identifizieren, dass die Kernherausforderung in der Offset-Varianz von KV-Caches zwischen den Agenten liegt. Um dies zu adressieren, schlagen wir KVCOMM vor, ein trainingsfreies Framework, das effizientes Prefilling in der Multi-Agenten-Inferenz ermöglicht, indem es KV-Caches wiederverwendet und Cache-Offsets überlappender Kontexte unter verschiedenen Präfixkontexten ausrichtet. KVCOMM schätzt und passt KV-Caches für gemeinsame Inhalte an, indem es auf einen Pool von zwischengespeicherten Beispielen – sogenannte Anker – verweist, die beobachtete Cache-Abweichungen unter variierenden Präfixen speichern. Der Ankerpool wird online gepflegt und aktualisiert, was eine dynamische Anpassung an unterschiedliche Benutzeranfragen und Kontextstrukturen ermöglicht. KVCOMM erreicht eine Wiederverwendungsrate von über 70 % in verschiedenen Multi-Agenten-Workloads, einschließlich retrieval-augmentierter Generierung, mathematischem Reasoning und kollaborativen Codierungsaufgaben, ohne Qualitätseinbußen. Insbesondere wenn jeder vollständig verbundene Agent 1K Eingabe-Tokens mit 512 Präfix-Tokens und 512 Ausgabe-Tokens in einem Fünf-Agenten-Setting erhält, erreicht KVCOMM eine Beschleunigung von bis zu 7,8x im Vergleich zur Standard-Prefill-Pipeline und reduziert die TTFT von ~430 ms auf ~55 ms.
English
Multi-agent large language model (LLM) systems are increasingly adopted for
complex language processing tasks that require communication and coordination
among agents. However, these systems often suffer substantial overhead from
repeated reprocessing of overlapping contexts across agents. In typical
pipelines, once an agent receives a message from its predecessor, the full
context-including prior turns-must be reprocessed from scratch, leading to
inefficient processing. While key-value (KV) caching is an effective solution
for avoiding redundant computation in single-agent settings where prefixes
remain unchanged, it cannot be directly reused in multi-agent scenarios due to
diverging prefixes introduced by agent-specific context extensions. We identify
that the core challenge lies in the offset variance of KV-caches across agents.
To address this, we propose KVCOMM, a training-free framework that enables
efficient prefilling in multi-agent inference by reusing KV-caches and aligning
cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM
estimates and adjusts KV-caches for shared content by referencing a pool of
cached examples-termed anchors-that store observed cache deviations under
varying prefixes. The anchor pool is maintained and updated online, allowing
dynamic adaptation to distinct user requests and context structures. KVCOMM
achieves over 70% reuse rate across diverse multi-agent workloads, including
retrieval-augmented generation, math reasoning, and collaborative coding tasks,
all without quality degradation. Particularly, when each fully-connected agent
receives 1K input tokens with 512 prefix tokens and 512 output tokens under a
five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard
prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.