De Som Lekker Meer Dan Zijn Delen: Compositionele Privacyrisico's en Mitigaties in Multi-Agent Samenwerking
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
Auteurs: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) een integraal onderdeel worden van multi-agent systemen, ontstaan er nieuwe privacyrisico's die verder gaan dan memorisatie, directe inferentie of evaluaties in één enkele interactie. In het bijzonder kunnen schijnbaar onschuldige reacties, wanneer ze worden samengesteld over meerdere interacties, cumulatief kwaadwillenden in staat stellen gevoelige informatie te achterhalen, een fenomeen dat wij compositorische privacylekkage noemen. Wij presenteren de eerste systematische studie van dergelijke compositorische privacylekkages en mogelijke mitigatiemethoden in multi-agent LLM-systemen. Eerst ontwikkelen we een raamwerk dat modelleert hoe aanvullende kennis en interacties tussen agents gezamenlijk privacyrisico's versterken, zelfs wanneer elke reactie op zichzelf onschadelijk is. Vervolgens stellen we ter mitigatie hiervan twee verdedigingsstrategieën voor en evalueren deze: (1) Theory-of-Mind verdediging (ToM), waarbij verdedigende agents de intentie van een vragensteller afleiden door te anticiperen op hoe hun uitvoer door kwaadwillenden kan worden misbruikt, en (2) Collaboratieve Consensus Verdediging (CoDef), waarbij reagerende agents samenwerken met peers die stemmen op basis van een gedeelde geaggregeerde staat om de verspreiding van gevoelige informatie te beperken. Cruciaal is dat we onze evaluatie in balans houden tussen composities die gevoelige informatie blootleggen en composities die onschadelijke inferenties opleveren. Onze experimenten kwantificeren hoe deze verdedigingsstrategieën verschillen in het balanceren van de privacy-nuttigheid trade-off. Wij constateren dat hoewel chain-of-thought alleen beperkte bescherming biedt tegen lekkage (~39% gevoelige blokkering), onze ToM-verdediging de blokkering van gevoelige queries aanzienlijk verbetert (tot 97%) maar het succes van onschadelijke taken kan verminderen. CoDef bereikt de beste balans, met het hoogste Gebalanceerde Resultaat (79,8%), wat het voordeel benadrukt van het combineren van expliciete redenering met samenwerking tussen verdedigers. Samen onthullen onze resultaten een nieuwe klasse van risico's in collaboratieve LLM-implementaties en bieden ze actiegerichte inzichten voor het ontwerpen van beschermingsmaatregelen tegen compositorische, context-gestuurde privacylekkage.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.