ChatPaper.aiChatPaper

KVCOMM: Online Cross-context KV-cache Communicatie voor Efficiënte LLM-gebaseerde Multi-agent Systemen

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

October 14, 2025
Auteurs: Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
cs.AI

Samenvatting

Multi-agent grote taalmodellen (LLM) systemen worden steeds vaker ingezet voor complexe taalverwerkingstaken die communicatie en coördinatie tussen agents vereisen. Deze systemen kampen echter vaak met aanzienlijke overhead door het herhaaldelijk verwerken van overlappende contexten tussen agents. In typische pijplijnen moet, zodra een agent een bericht ontvangt van zijn voorganger, de volledige context - inclusief eerdere beurten - van scratch opnieuw worden verwerkt, wat leidt tot inefficiënte verwerking. Hoewel key-value (KV) caching een effectieve oplossing is om redundante berekeningen te vermijden in single-agent instellingen waar prefixen ongewijzigd blijven, kan het niet direct worden hergebruikt in multi-agent scenario's vanwege divergerende prefixen die worden geïntroduceerd door agentspecifieke contextuitbreidingen. Wij identificeren dat de kernuitdaging ligt in de offset-variantie van KV-caches tussen agents. Om dit aan te pakken, stellen we KVCOMM voor, een trainingsvrij framework dat efficiënte prefilling mogelijk maakt in multi-agent inferentie door KV-caches te hergebruiken en cache-offsets van overlappende contexten uit te lijnen onder diverse prefixcontexten. KVCOMM schat en past KV-caches aan voor gedeelde inhoud door te verwijzen naar een pool van gecachete voorbeelden - zogenaamde ankers - die waargenomen cache-afwijkingen opslaan onder variërende prefixen. De ankerpool wordt online onderhouden en bijgewerkt, waardoor dynamische aanpassing aan verschillende gebruikersverzoeken en contextstructuren mogelijk is. KVCOMM bereikt een hergebruikpercentage van meer dan 70% over diverse multi-agent workloads, waaronder retrieval-augmented generatie, wiskundig redeneren en collaboratieve coderingstaken, allemaal zonder kwaliteitsverlies. Met name wanneer elke volledig verbonden agent 1K invoertokens ontvangt met 512 prefixtokens en 512 uitvoertokens in een vijf-agent instelling, bereikt KVCOMM een versnelling tot 7,8x vergeleken met de standaard prefill-pijplijn, waardoor de TTFT wordt teruggebracht van ~430 ms naar ~55 ms.
English
Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.
PDF22October 17, 2025