LCGuard : Garde de Communication Latente pour un Partage Sécurisé de KV dans les Systèmes Multi-Agents

Résumé

Les systèmes multi-agents basés sur de grands modèles de langage (LLM) reposent de plus en plus sur la communication intermédiaire pour coordonner des tâches complexes. Alors que la plupart des systèmes existants communiquent via le langage naturel, des travaux récents montrent que la communication latente, notamment via les caches clé-valeur (KV) des transformeurs, peut améliorer l'efficacité et préserver des informations plus riches et pertinentes pour la tâche. Cependant, les caches KV encodent également des entrées contextuelles, des états de raisonnement intermédiaires et des informations spécifiques aux agents, créant ainsi un canal opaque par lequel un contenu sensible peut se propager entre agents sans divulgation textuelle explicite. Pour remédier à cela, nous présentons \textbf{LCGuard} (Garde de Communication Latente), un cadre pour une communication latente sécurisée basée sur KV dans les systèmes multi-agents LLM. LCGuard traite les caches KV partagés comme une mémoire de travail latente et apprend des transformations au niveau des représentations avant que les artefacts de cache ne soient transmis entre agents. Nous formalisons opérationnellement la fuite d'informations sensibles au niveau des représentations par reconstruction : un artefact de cache partagé est dangereux si un décodeur adverse peut en reconstruire des entrées sensibles spécifiques à l'agent. Cela conduit à une formulation d'entraînement adversarial dans laquelle l'adversaire apprend à reconstruire les entrées sensibles, tandis que LCGuard apprend des transformations qui préservent la sémantique pertinente à la tâche et réduisent les informations reconstructibles. Des évaluations empiriques sur plusieurs familles de modèles et de benchmarks multi-agents montrent que LCGuard réduit constamment les fuites basées sur la reconstruction et les taux de succès des attaques, tout en maintenant des performances compétitives sur les tâches par rapport aux références standard de partage KV.

English

Large language model (LLM)-based multi-agent systems increasingly rely on intermediate communication to coordinate complex tasks. While most existing systems communicate through natural language, recent work shows that latent communication, particularly through transformer key-value (KV) caches, can improve efficiency and preserve richer task-relevant information. However, KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure. To address this, we introduce \textbf{LCGuard} (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems. LCGuard treats shared KV caches as latent working memory and learns representation-level transformations before cache artifacts are transmitted across agents. We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it. This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information. Empirical evaluations across multiple model families and multi-agent benchmarks show that LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines.

LCGuard : Garde de Communication Latente pour un Partage Sécurisé de KV dans les Systèmes Multi-Agents

LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

Résumé

Support