ChatPaper.aiChatPaper

Die Summe leckt mehr als ihre Teile: Kompositionelle Datenschutzrisiken und Abhilfemaßnahmen in der Multi-Agenten-Kollaboration

The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration

September 16, 2025
papers.authors: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI

papers.abstract

Da große Sprachmodelle (LLMs) zunehmend integraler Bestandteil von Multi-Agenten-Systemen werden, entstehen neue Datenschutzrisiken, die über reine Memorierung, direkte Inferenz oder Einzelinteraktionsbewertungen hinausgehen. Insbesondere können scheinbar harmlose Antworten, die über mehrere Interaktionen hinweg zusammengesetzt werden, kumulativ Angreifern ermöglichen, sensible Informationen zu rekonstruieren – ein Phänomen, das wir als kompositionellen Datenschutzverlust bezeichnen. Wir präsentieren die erste systematische Untersuchung solcher kompositioneller Datenschutzlecks und möglicher Abhilfemaßnahmen in Multi-Agenten-LLM-Systemen. Zunächst entwickeln wir ein Framework, das modelliert, wie zusätzliches Wissen und Agenteninteraktionen gemeinsam Datenschutzrisiken verstärken, selbst wenn jede Antwort für sich genommen harmlos ist. Um dies zu mindern, schlagen wir zwei Verteidigungsstrategien vor und evaluieren sie: (1) die Theory-of-Mind-Verteidigung (ToM), bei der Verteidiger-Agenten die Absicht eines Fragestellers ableiten, indem sie antizipieren, wie ihre Ausgaben von Angreifern ausgenutzt werden könnten, und (2) die Collaborative Consensus Defense (CoDef), bei der antwortende Agenten mit Peers zusammenarbeiten, die auf Basis eines gemeinsamen aggregierten Zustands abstimmen, um die Verbreitung sensibler Informationen einzuschränken. Entscheidend ist, dass wir unsere Bewertung sowohl auf Kompositionen ausrichten, die sensible Informationen offenlegen, als auch auf solche, die harmlose Schlussfolgerungen liefern. Unsere Experimente quantifizieren, wie sich diese Verteidigungsstrategien in der Balance zwischen Datenschutz und Nutzen unterscheiden. Wir stellen fest, dass die Chain-of-Thought-Methode allein nur begrenzten Schutz vor Lecks bietet (~39% Blockierungsrate sensibler Anfragen), während unsere ToM-Verteidigung die Blockierung sensibler Anfragen erheblich verbessert (bis zu 97%), jedoch den Erfolg bei harmlosen Aufgaben reduzieren kann. CoDef erreicht die beste Balance mit dem höchsten Balanced Outcome (79,8%) und unterstreicht den Nutzen der Kombination von expliziter Argumentation mit der Zusammenarbeit der Verteidiger. Zusammengenommen decken unsere Ergebnisse eine neue Klasse von Risiken in kollaborativen LLM-Einsätzen auf und bieten umsetzbare Erkenntnisse für die Gestaltung von Schutzmaßnahmen gegen kompositionelle, kontextgetriebene Datenschutzlecks.
English
As large language models (LLMs) become integral to multi-agent systems, new privacy risks emerge that extend beyond memorization, direct inference, or single-turn evaluations. In particular, seemingly innocuous responses, when composed across interactions, can cumulatively enable adversaries to recover sensitive information, a phenomenon we term compositional privacy leakage. We present the first systematic study of such compositional privacy leaks and possible mitigation methods in multi-agent LLM systems. First, we develop a framework that models how auxiliary knowledge and agent interactions jointly amplify privacy risks, even when each response is benign in isolation. Next, to mitigate this, we propose and evaluate two defense strategies: (1) Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent by anticipating how their outputs may be exploited by adversaries, and (2) Collaborative Consensus Defense (CoDef), where responder agents collaborate with peers who vote based on a shared aggregated state to restrict sensitive information spread. Crucially, we balance our evaluation across compositions that expose sensitive information and compositions that yield benign inferences. Our experiments quantify how these defense strategies differ in balancing the privacy-utility trade-off. We find that while chain-of-thought alone offers limited protection to leakage (~39% sensitive blocking rate), our ToM defense substantially improves sensitive query blocking (up to 97%) but can reduce benign task success. CoDef achieves the best balance, yielding the highest Balanced Outcome (79.8%), highlighting the benefit of combining explicit reasoning with defender collaboration. Together, our results expose a new class of risks in collaborative LLM deployments and provide actionable insights for designing safeguards against compositional, context-driven privacy leakage.
PDF22September 19, 2025