KVCOMM : Communication en ligne du cache KV entre contextes pour des systèmes multi-agents basés sur LLM efficaces

papers.abstract

Les systèmes multi-agents basés sur des modèles de langage à grande échelle (LLM) sont de plus en plus adoptés pour des tâches complexes de traitement du langage nécessitant communication et coordination entre agents. Cependant, ces systèmes subissent souvent une surcharge importante due au retraitement répété de contextes qui se chevauchent entre les agents. Dans les pipelines typiques, lorsqu'un agent reçoit un message de son prédécesseur, le contexte complet - y compris les tours précédents - doit être retraité depuis le début, ce qui entraîne une inefficacité de traitement. Bien que la mise en cache clé-valeur (KV) soit une solution efficace pour éviter les calculs redondants dans des configurations mono-agent où les préfixes restent inchangés, elle ne peut pas être directement réutilisée dans des scénarios multi-agents en raison de préfixes divergents introduits par des extensions de contexte spécifiques à chaque agent. Nous identifions que le défi central réside dans la variance des décalages des caches KV entre les agents. Pour y remédier, nous proposons KVCOMM, un cadre sans entraînement qui permet un préremplissage efficace dans l'inférence multi-agent en réutilisant les caches KV et en alignant les décalages des caches pour les contextes qui se chevauchent sous divers préfixes. KVCOMM estime et ajuste les caches KV pour le contenu partagé en se référant à un pool d'exemples mis en cache - appelés ancres - qui stockent les écarts de cache observés sous différents préfixes. Le pool d'ancres est maintenu et mis à jour en ligne, permettant une adaptation dynamique à des requêtes utilisateur et des structures de contexte distinctes. KVCOMM atteint un taux de réutilisation de plus de 70% sur diverses charges de travail multi-agents, y compris la génération augmentée par récupération, le raisonnement mathématique et les tâches de codage collaboratif, sans dégradation de la qualité. En particulier, lorsque chaque agent entièrement connecté reçoit 1K tokens d'entrée avec 512 tokens de préfixe et 512 tokens de sortie dans un cadre à cinq agents, KVCOMM atteint une accélération allant jusqu'à 7,8x par rapport au pipeline de préremplissage standard, réduisant le TTFT de ~430 ms à ~55 ms.

English

Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.

KVCOMM : Communication en ligne du cache KV entre contextes pour des systèmes multi-agents basés sur LLM efficaces

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

papers.abstract

Support