LCGuard: Guardia de Comunicación Latente para el Intercambio Seguro de KV en Sistemas Multiagente

Resumen

Los sistemas multiagente basados en modelos de lenguaje grande (LLM) dependen cada vez más de la comunicación intermedia para coordinar tareas complejas. Si bien la mayoría de los sistemas existentes se comunican mediante lenguaje natural, trabajos recientes muestran que la comunicación latente, en particular a través de los cachés clave-valor (KV) del transformer, puede mejorar la eficiencia y preservar información relevante para la tarea de manera más completa. Sin embargo, los cachés KV también codifican entradas contextuales, estados de razonamiento intermedios e información específica de cada agente, creando un canal opaco a través del cual el contenido sensible puede propagarse entre agentes sin divulgación textual explícita. Para abordar esto, presentamos \textbf{LCGuard} (Guardia de Comunicación Latente), un marco para la comunicación latente segura basada en KV en sistemas multiagente con LLM. LCGuard trata los cachés KV compartidos como memoria de trabajo latente y aprende transformaciones a nivel de representación antes de que los artefactos del caché se transmitan entre agentes. Formalizamos operativamente la fuga de información sensible a nivel de representación mediante reconstrucción: un artefacto de caché compartido no es seguro si un decodificador adversarial puede recuperar entradas sensibles específicas del agente a partir de él. Esto conduce a una formulación de entrenamiento adversarial en la que el adversario aprende a reconstruir entradas sensibles, mientras que LCGuard aprende transformaciones que preservan la semántica relevante para la tarea y reducen la información reconstruible. Evaluaciones empíricas en múltiples familias de modelos y puntos de referencia multiagente muestran que LCGuard reduce consistentemente la fuga basada en reconstrucción y las tasas de éxito de ataques, manteniendo al mismo tiempo un rendimiento competitivo en las tareas en comparación con las líneas base estándar de compartición de KV.

English

Large language model (LLM)-based multi-agent systems increasingly rely on intermediate communication to coordinate complex tasks. While most existing systems communicate through natural language, recent work shows that latent communication, particularly through transformer key-value (KV) caches, can improve efficiency and preserve richer task-relevant information. However, KV caches also encode contextual inputs, intermediate reasoning states, and agent-specific information, creating an opaque channel through which sensitive content may propagate across agents without explicit textual disclosure. To address this, we introduce \textbf{LCGuard} (Latent Communication Guard), a framework for safe KV-based latent communication in multi-agent LLM systems. LCGuard treats shared KV caches as latent working memory and learns representation-level transformations before cache artifacts are transmitted across agents. We formalize representation-level sensitive information leakage operationally through reconstruction: a shared cache artifact is unsafe if an adversarial decoder can recover agent-specific sensitive inputs from it. This leads to an adversarial training formulation in which the adversary learns to reconstruct sensitive inputs, while LCGuard learns transformations that preserve task-relevant semantics and reduce reconstructable information. Empirical evaluations across multiple model families and multi-agent benchmarks show that LCGuard consistently reduces reconstruction-based leakage and attack success rates while maintaining competitive task performance compared to standard KV-sharing baselines.

LCGuard: Guardia de Comunicación Latente para el Intercambio Seguro de KV en Sistemas Multiagente

LCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems

Resumen

Support