LCGuard: Защита латентной связи для безопасного обмена KV в мультиагентных системах

Аннотация

Большие языковые модели (LLM) в многоагентных системах все чаще полагаются на промежуточную коммуникацию для координации сложных задач. Хотя большинство существующих систем общаются на естественном языке, последние работы показывают, что латентная коммуникация, особенно через кэши ключ-значение (KV) трансформеров, может повысить эффективность и сохранить более богатую релевантную информацию. Однако KV-кэши также кодируют контекстные входные данные, промежуточные состояния рассуждений и специфичную для агентов информацию, создавая непрозрачный канал, через который конфиденциальное содержимое может распространяться между агентами без явного текстового раскрытия. Для решения этой проблемы мы предлагаем \textbf{LCGuard} (Защита латентной коммуникации) — фреймворк для безопасной KV-латентной коммуникации в многоагентных LLM-системах. LCGuard рассматривает общие KV-кэши как латентную рабочую память и применяет преобразования на уровне представлений перед передачей артефактов кэша между агентами. Мы формализуем утечку конфиденциальной информации на уровне представлений операционально через реконструкцию: общий артефакт кэша считается небезопасным, если состязательный декодер может восстановить из него конфиденциальные входные данные агента. Это приводит к формулировке состязательного обучения, в котором противник учится восстанавливать конфиденциальные входные данные, в то время как LCGuard обучается преобразованиям, сохраняющим семантику задачи и уменьшающим восстанавливаемую информацию. Эмпирическая оценка на нескольких семействах моделей и многоагентных эталонах показывает, что LCGuard последовательно снижает утечку на основе реконструкции и уровень успешности атак, сохраняя при этом конкурентоспособную производительность по сравнению со стандартными подходами совместного использования KV.

English

Large language model (LLM)-based multi-agent systems increasingly rely on intermediate communication to coordinate complex tasks. While most existing systems communicate through natural language, recent work shows that latent communication, particularly through transformer key-value (KV) caches, can improve efficiency and preserve richer task-relevant information. However, KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure. To address this, we introduce \textbf{LCGuard} (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems. LCGuard treats shared KV caches as latent working memory and learns representation-level transformations before cache artifacts are transmitted across agents. We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it. This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information. Empirical evaluations across multiple model families and multi-agent benchmarks show that LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines.

LCGuard: Защита латентной связи для безопасного обмена KV в мультиагентных системах

LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

Аннотация

Support