KVCOMM: Comunicación en línea de caché KV entre contextos para sistemas multiagente basados en LLM eficientes

Resumen

Los sistemas de modelos de lenguaje de gran escala (LLM) multiagente se están adoptando cada vez más para tareas complejas de procesamiento de lenguaje que requieren comunicación y coordinación entre agentes. Sin embargo, estos sistemas suelen sufrir una sobrecarga significativa debido al reprocesamiento repetido de contextos superpuestos entre agentes. En las canalizaciones típicas, una vez que un agente recibe un mensaje de su predecesor, el contexto completo, incluidas las interacciones previas, debe reprocesarse desde cero, lo que conduce a un procesamiento ineficiente. Si bien el almacenamiento en caché de clave-valor (KV) es una solución efectiva para evitar cálculos redundantes en entornos de un solo agente donde los prefijos permanecen inalterados, no puede reutilizarse directamente en escenarios multiagente debido a la divergencia de prefijos introducida por extensiones de contexto específicas de cada agente. Identificamos que el desafío central radica en la variación de desplazamientos de las cachés KV entre agentes. Para abordar esto, proponemos KVCOMM, un marco sin entrenamiento que permite un prefilling eficiente en la inferencia multiagente mediante la reutilización de cachés KV y la alineación de los desplazamientos de caché para contextos superpuestos bajo diversos prefijos. KVCOMM estima y ajusta las cachés KV para contenido compartido haciendo referencia a un conjunto de ejemplos almacenados en caché, denominados anclas, que registran las desviaciones observadas en las cachés bajo diferentes prefijos. El conjunto de anclas se mantiene y actualiza en línea, permitiendo una adaptación dinámica a distintas solicitudes de usuarios y estructuras de contexto. KVCOMM logra una tasa de reutilización superior al 70% en diversas cargas de trabajo multiagente, incluyendo generación aumentada con recuperación, razonamiento matemático y tareas de codificación colaborativa, todo ello sin degradación de la calidad. En particular, cuando cada agente completamente conectado recibe 1K tokens de entrada con 512 tokens de prefijo y 512 tokens de salida en un entorno de cinco agentes, KVCOMM alcanza una aceleración de hasta 7.8x en comparación con la canalización de prefilling estándar, reduciendo el TTFT de ~430 ms a ~55 ms.

English

Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.

KVCOMM: Comunicación en línea de caché KV entre contextos para sistemas multiagente basados en LLM eficientes

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

Resumen

Support