KVCOMM : Communication en ligne du cache KV entre contextes pour des systèmes multi-agents basés sur LLM efficaces
KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems
October 14, 2025
papers.authors: Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
cs.AI
papers.abstract
Les systèmes multi-agents basés sur des modèles de langage à grande échelle (LLM) sont de plus en plus adoptés pour des tâches complexes de traitement du langage nécessitant communication et coordination entre agents. Cependant, ces systèmes subissent souvent une surcharge importante due au retraitement répété de contextes qui se chevauchent entre les agents. Dans les pipelines typiques, lorsqu'un agent reçoit un message de son prédécesseur, le contexte complet - y compris les tours précédents - doit être retraité depuis le début, ce qui entraîne une inefficacité de traitement. Bien que la mise en cache clé-valeur (KV) soit une solution efficace pour éviter les calculs redondants dans des configurations mono-agent où les préfixes restent inchangés, elle ne peut pas être directement réutilisée dans des scénarios multi-agents en raison de préfixes divergents introduits par des extensions de contexte spécifiques à chaque agent. Nous identifions que le défi central réside dans la variance des décalages des caches KV entre les agents. Pour y remédier, nous proposons KVCOMM, un cadre sans entraînement qui permet un préremplissage efficace dans l'inférence multi-agent en réutilisant les caches KV et en alignant les décalages des caches pour les contextes qui se chevauchent sous divers préfixes. KVCOMM estime et ajuste les caches KV pour le contenu partagé en se référant à un pool d'exemples mis en cache - appelés ancres - qui stockent les écarts de cache observés sous différents préfixes. Le pool d'ancres est maintenu et mis à jour en ligne, permettant une adaptation dynamique à des requêtes utilisateur et des structures de contexte distinctes. KVCOMM atteint un taux de réutilisation de plus de 70% sur diverses charges de travail multi-agents, y compris la génération augmentée par récupération, le raisonnement mathématique et les tâches de codage collaboratif, sans dégradation de la qualité. En particulier, lorsque chaque agent entièrement connecté reçoit 1K tokens d'entrée avec 512 tokens de préfixe et 512 tokens de sortie dans un cadre à cinq agents, KVCOMM atteint une accélération allant jusqu'à 7,8x par rapport au pipeline de préremplissage standard, réduisant le TTFT de ~430 ms à ~55 ms.
English
Multi-agent large language model (LLM) systems are increasingly adopted for
complex language processing tasks that require communication and coordination
among agents. However, these systems often suffer substantial overhead from
repeated reprocessing of overlapping contexts across agents. In typical
pipelines, once an agent receives a message from its predecessor, the full
context-including prior turns-must be reprocessed from scratch, leading to
inefficient processing. While key-value (KV) caching is an effective solution
for avoiding redundant computation in single-agent settings where prefixes
remain unchanged, it cannot be directly reused in multi-agent scenarios due to
diverging prefixes introduced by agent-specific context extensions. We identify
that the core challenge lies in the offset variance of KV-caches across agents.
To address this, we propose KVCOMM, a training-free framework that enables
efficient prefilling in multi-agent inference by reusing KV-caches and aligning
cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM
estimates and adjusts KV-caches for shared content by referencing a pool of
cached examples-termed anchors-that store observed cache deviations under
varying prefixes. The anchor pool is maintained and updated online, allowing
dynamic adaptation to distinct user requests and context structures. KVCOMM
achieves over 70% reuse rate across diverse multi-agent workloads, including
retrieval-augmented generation, math reasoning, and collaborative coding tasks,
all without quality degradation. Particularly, when each fully-connected agent
receives 1K input tokens with 512 prefix tokens and 512 output tokens under a
five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard
prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.