KVCOMM: Онлайн-коммуникация KV-кэша между контекстами для эффективных мультиагентных систем на основе больших языковых моделей
KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems
October 14, 2025
Авторы: Hancheng Ye, Zhengqi Gao, Mingyuan Ma, Qinsi Wang, Yuzhe Fu, Ming-Yu Chung, Yueqian Lin, Zhijian Liu, Jianyi Zhang, Danyang Zhuo, Yiran Chen
cs.AI
Аннотация
Многоагентные системы с использованием больших языковых моделей (LLM) всё чаще применяются для решения сложных задач обработки языка, требующих взаимодействия и координации между агентами. Однако такие системы часто сталкиваются с существенными накладными расходами из-за повторной обработки перекрывающихся контекстов между агентами. В типичных конвейерах, как только агент получает сообщение от своего предшественника, полный контекст, включая предыдущие шаги, должен быть обработан заново, что приводит к неэффективности. Хотя кэширование ключей и значений (KV) является эффективным решением для избежания избыточных вычислений в однозадачных сценариях, где префиксы остаются неизменными, оно не может быть напрямую применено в многоагентных сценариях из-за расхождения префиксов, вызванного расширением контекста, специфичным для каждого агента. Основная проблема заключается в изменении смещений KV-кэшей между агентами. Для решения этой проблемы мы предлагаем KVCOMM — не требующий обучения фреймворк, который обеспечивает эффективное предзаполнение в многоагентных сценариях за счёт повторного использования KV-кэшей и выравнивания смещений кэшей для перекрывающихся контекстов при различных префиксах. KVCOMM оценивает и корректирует KV-кэши для общего содержимого, ссылаясь на пул кэшированных примеров, называемых якорями, которые хранят наблюдаемые отклонения кэшей при различных префиксах. Пул якорей поддерживается и обновляется в режиме реального времени, что позволяет динамически адаптироваться к различным запросам пользователей и структурам контекста. KVCOMM достигает уровня повторного использования более 70% для различных многоагентных задач, включая генерацию с использованием поиска, математические рассуждения и совместное программирование, без ухудшения качества. В частности, в условиях пяти агентов, где каждый полностью связанный агент получает 1K входных токенов с 512 префиксными токенами и 512 выходными токенами, KVCOMM обеспечивает ускорение до 7,8 раз по сравнению со стандартным конвейером предзаполнения, сокращая время до первого токена (TTFT) с ~430 мс до ~55 мс.
English
Multi-agent large language model (LLM) systems are increasingly adopted for
complex language processing tasks that require communication and coordination
among agents. However, these systems often suffer substantial overhead from
repeated reprocessing of overlapping contexts across agents. In typical
pipelines, once an agent receives a message from its predecessor, the full
context-including prior turns-must be reprocessed from scratch, leading to
inefficient processing. While key-value (KV) caching is an effective solution
for avoiding redundant computation in single-agent settings where prefixes
remain unchanged, it cannot be directly reused in multi-agent scenarios due to
diverging prefixes introduced by agent-specific context extensions. We identify
that the core challenge lies in the offset variance of KV-caches across agents.
To address this, we propose KVCOMM, a training-free framework that enables
efficient prefilling in multi-agent inference by reusing KV-caches and aligning
cache offsets of overlapping contexts under diverse prefix contexts. KVCOMM
estimates and adjusts KV-caches for shared content by referencing a pool of
cached examples-termed anchors-that store observed cache deviations under
varying prefixes. The anchor pool is maintained and updated online, allowing
dynamic adaptation to distinct user requests and context structures. KVCOMM
achieves over 70% reuse rate across diverse multi-agent workloads, including
retrieval-augmented generation, math reasoning, and collaborative coding tasks,
all without quality degradation. Particularly, when each fully-connected agent
receives 1K input tokens with 512 prefix tokens and 512 output tokens under a
five-agent setting, KVCOMM achieves up to 7.8x speedup compared to the standard
prefill pipeline, reducing TTFT from ~430 ms to ~55 ms.