El Conjunto Filtra Más que sus Partes: Riesgos y Mitigaciones de Privacidad Composicional en la Colaboración Multiagente
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
Autores: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se integran en sistemas multiagente, surgen nuevos riesgos de privacidad que van más allá de la memorización, la inferencia directa o las evaluaciones de un solo turno. En particular, respuestas aparentemente inocuas, cuando se componen a lo largo de interacciones, pueden permitir de manera acumulativa que los adversarios recuperen información sensible, un fenómeno que denominamos fuga de privacidad composicional. Presentamos el primer estudio sistemático de este tipo de fugas de privacidad composicional y de posibles métodos de mitigación en sistemas multiagente basados en LLMs. Primero, desarrollamos un marco que modela cómo el conocimiento auxiliar y las interacciones entre agentes amplifican conjuntamente los riesgos de privacidad, incluso cuando cada respuesta es benigna de manera aislada. Luego, para mitigar esto, proponemos y evaluamos dos estrategias de defensa: (1) la defensa basada en la Teoría de la Mente (ToM, por sus siglas en inglés), donde los agentes defensores infieren la intención de un interrogador anticipando cómo sus salidas pueden ser explotadas por adversarios, y (2) la defensa de Consenso Colaborativo (CoDef, por sus siglas en inglés), donde los agentes respondedores colaboran con pares que votan en función de un estado agregado compartido para restringir la difusión de información sensible. Es crucial destacar que equilibramos nuestra evaluación entre composiciones que exponen información sensible y composiciones que producen inferencias benignas. Nuestros experimentos cuantifican cómo estas estrategias de defensa difieren en equilibrar la relación entre privacidad y utilidad. Encontramos que, aunque la cadena de pensamiento por sí sola ofrece una protección limitada contra la fuga (~39% de tasa de bloqueo de información sensible), nuestra defensa ToM mejora sustancialmente el bloqueo de consultas sensibles (hasta un 97%), pero puede reducir el éxito en tareas benignas. CoDef logra el mejor equilibrio, obteniendo el Resultado Equilibrado más alto (79,8%), destacando el beneficio de combinar el razonamiento explícito con la colaboración entre defensores. En conjunto, nuestros resultados exponen una nueva clase de riesgos en implementaciones colaborativas de LLMs y proporcionan ideas prácticas para diseñar salvaguardias contra fugas de privacidad composicionales y basadas en el contexto.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.