KVCOMM: Comunicação Online de Cache KV entre Contextos para Sistemas Multiagente Baseados em LLM Eficientes

Resumo

Sistemas de modelos de linguagem de grande escala (LLMs) multiagentes estão sendo cada vez mais adotados para tarefas complexas de processamento de linguagem que exigem comunicação e coordenação entre agentes. No entanto, esses sistemas frequentemente sofrem com uma sobrecarga significativa devido ao reprocessamento repetido de contextos sobrepostos entre os agentes. Em pipelines típicos, uma vez que um agente recebe uma mensagem de seu predecessor, o contexto completo — incluindo turnos anteriores — deve ser reprocessado do zero, resultando em processamento ineficiente. Embora o cache de chave-valor (KV) seja uma solução eficaz para evitar computação redundante em cenários de agente único, onde os prefixos permanecem inalterados, ele não pode ser reutilizado diretamente em cenários multiagentes devido à divergência de prefixos introduzida por extensões de contexto específicas de cada agente. Identificamos que o desafio central reside na variação de deslocamento dos caches KV entre os agentes. Para resolver isso, propomos o KVCOMM, uma estrutura livre de treinamento que permite o preenchimento eficiente em inferência multiagente ao reutilizar caches KV e alinhar deslocamentos de cache para contextos sobrepostos sob diversos prefixos. O KVCOMM estima e ajusta os caches KV para conteúdo compartilhado ao referenciar um conjunto de exemplos em cache — denominados âncoras — que armazenam desvios de cache observados sob diferentes prefixos. O conjunto de âncoras é mantido e atualizado online, permitindo adaptação dinâmica a diferentes solicitações de usuários e estruturas de contexto. O KVCOMM alcança uma taxa de reutilização superior a 70% em diversas cargas de trabalho multiagentes, incluindo geração aumentada por recuperação, raciocínio matemático e tarefas de codificação colaborativa, tudo sem degradação de qualidade. Especificamente, quando cada agente totalmente conectado recebe 1K tokens de entrada com 512 tokens de prefixo e 512 tokens de saída em um cenário de cinco agentes, o KVCOMM alcança uma aceleração de até 7,8x em comparação com o pipeline de preenchimento padrão, reduzindo o TTFT de ~430 ms para ~55 ms.

English

Multi-agent large language model (LLM) systems are increasingly adopted for complex language processing tasks that require communication and coordination among agents. However, these systems often suffer substantial overhead from repeated reprocessing of overlapping contexts across agents. In typical pipelines, once an agent receives a message from its predecessor, the full context-including prior turns-must be reprocessed from scratch, leading to inefficient processing. While key-value (KV) caching is an effective solution for avoiding redundant computation in single-agent settings where prefixes remain unchanged, it cannot be directly reused in multi-agent scenarios due to diverging prefixes introduced by agent-specific context extensions. We identify that the core challenge lies in the offset variance of KV-caches across agents. To address this, we propose KVCOMM, a training-free framework that enables efficient prefilling in multi-agent inference by reusing KV-caches and aligning cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM estimates and adjusts KV-caches for shared content by referencing a pool of cached examples-termed anchors-that store observed cache deviations under varying prefixes. The anchor pool is maintained and updated online, allowing dynamic adaptation to distinct user requests and context structures. KVCOMM achieves over 70% reuse rate across diverse multi-agent workloads, including retrieval-augmented generation, math reasoning, and collaborative coding tasks, all without quality degradation. Particularly, when each fully-connected agent receives 1K input tokens with 512 prefix tokens and 512 output tokens under a five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.

KVCOMM: Comunicação Online de Cache KV entre Contextos para Sistemas Multiagente Baseados em LLM Eficientes

KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems

Resumo

Support