KVCOMM: Comunicación en línea de caché KV entre contextos para sistemas multiagente basados en LLM eficientes
KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems
October 14, 2025
Autores: Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
cs.AI
Resumen
Los sistemas de modelos de lenguaje de gran escala (LLM) multiagente se están adoptando cada vez más para tareas complejas de procesamiento de lenguaje que requieren comunicación y coordinación entre agentes. Sin embargo, estos sistemas suelen sufrir una sobrecarga significativa debido al reprocesamiento repetido de contextos superpuestos entre agentes. En las canalizaciones típicas, una vez que un agente recibe un mensaje de su predecesor, el contexto completo, incluidas las interacciones previas, debe reprocesarse desde cero, lo que conduce a un procesamiento ineficiente. Si bien el almacenamiento en caché de clave-valor (KV) es una solución efectiva para evitar cálculos redundantes en entornos de un solo agente donde los prefijos permanecen inalterados, no puede reutilizarse directamente en escenarios multiagente debido a la divergencia de prefijos introducida por extensiones de contexto específicas de cada agente. Identificamos que el desafío central radica en la variación de desplazamientos de las cachés KV entre agentes. Para abordar esto, proponemos KVCOMM, un marco sin entrenamiento que permite un prefilling eficiente en la inferencia multiagente mediante la reutilización de cachés KV y la alineación de los desplazamientos de caché para contextos superpuestos bajo diversos prefijos. KVCOMM estima y ajusta las cachés KV para contenido compartido haciendo referencia a un conjunto de ejemplos almacenados en caché, denominados anclas, que registran las desviaciones observadas en las cachés bajo diferentes prefijos. El conjunto de anclas se mantiene y actualiza en línea, permitiendo una adaptación dinámica a distintas solicitudes de usuarios y estructuras de contexto. KVCOMM logra una tasa de reutilización superior al 70% en diversas cargas de trabajo multiagente, incluyendo generación aumentada con recuperación, razonamiento matemático y tareas de codificación colaborativa, todo ello sin degradación de la calidad. En particular, cuando cada agente completamente conectado recibe 1K tokens de entrada con 512 tokens de prefijo y 512 tokens de salida en un entorno de cinco agentes, KVCOMM alcanza una aceleración de hasta 7.8x en comparación con la canalización de prefilling estándar, reduciendo el TTFT de ~430 ms a ~55 ms.
English
Multi-agent large language model (LLM) systems are increasingly adopted for
complex language processing tasks that require communication and coordination
among agents. However, these systems often suffer substantial overhead from
repeated reprocessing of overlapping contexts across agents. In typical
pipelines, once an agent receives a message from its predecessor, the full
context-including prior turns-must be reprocessed from scratch, leading to
inefficient processing. While key-value (KV) caching is an effective solution
for avoiding redundant computation in single-agent settings where prefixes
remain unchanged, it cannot be directly reused in multi-agent scenarios due to
diverging prefixes introduced by agent-specific context extensions. We identify
that the core challenge lies in the offset variance of KV-caches across agents.
To address this, we propose KVCOMM, a training-free framework that enables
efficient prefilling in multi-agent inference by reusing KV-caches and aligning
cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM
estimates and adjusts KV-caches for shared content by referencing a pool of
cached examples-termed anchors-that store observed cache deviations under
varying prefixes. The anchor pool is maintained and updated online, allowing
dynamic adaptation to distinct user requests and context structures. KVCOMM
achieves over 70% reuse rate across diverse multi-agent workloads, including
retrieval-augmented generation, math reasoning, and collaborative coding tasks,
all without quality degradation. Particularly, when each fully-connected agent
receives 1K input tokens with 512 prefix tokens and 512 output tokens under a
five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard
prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.