La somme fuit plus que ses parties : risques de confidentialité compositionnelle et atténuations dans la collaboration multi-agents
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
papers.authors: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
papers.abstract
Alors que les grands modèles de langage (LLMs) deviennent essentiels dans les systèmes multi-agents, de nouveaux risques en matière de confidentialité émergent, dépassant la simple mémorisation, l'inférence directe ou les évaluations en une seule étape. En particulier, des réponses apparemment anodines, lorsqu'elles sont composées à travers plusieurs interactions, peuvent permettre cumulativement à des adversaires de récupérer des informations sensibles, un phénomène que nous appelons la fuite de confidentialité compositionnelle. Nous présentons la première étude systématique de telles fuites de confidentialité compositionnelle et des méthodes possibles pour les atténuer dans les systèmes multi-agents basés sur des LLMs. Tout d'abord, nous développons un cadre qui modélise comment les connaissances auxiliaires et les interactions entre agents amplifient conjointement les risques pour la confidentialité, même lorsque chaque réponse est bénigne isolément. Ensuite, pour atténuer ce problème, nous proposons et évaluons deux stratégies de défense : (1) la défense par théorie de l'esprit (ToM), où les agents défenseurs infèrent l'intention d'un questionneur en anticipant comment leurs réponses pourraient être exploitées par des adversaires, et (2) la défense par consensus collaboratif (CoDef), où les agents répondants collaborent avec des pairs qui votent en fonction d'un état agrégé partagé pour limiter la diffusion d'informations sensibles. De manière cruciale, nous équilibrons notre évaluation entre les compositions qui exposent des informations sensibles et celles qui produisent des inférences bénignes. Nos expériences quantifient comment ces stratégies de défense diffèrent dans l'équilibre entre confidentialité et utilité. Nous constatons que si la chaîne de pensée seule offre une protection limitée contre les fuites (~39 % de blocage des informations sensibles), notre défense ToM améliore considérablement le blocage des requêtes sensibles (jusqu'à 97 %) mais peut réduire le succès des tâches bénignes. CoDef atteint le meilleur équilibre, produisant le résultat équilibré le plus élevé (79,8 %), mettant en évidence l'avantage de combiner un raisonnement explicite avec une collaboration entre défenseurs. Ensemble, nos résultats révèlent une nouvelle classe de risques dans les déploiements collaboratifs de LLMs et fournissent des insights actionnables pour concevoir des protections contre les fuites de confidentialité compositionnelles et contextuelles.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.