La Somma Perde Più delle Sue Parti: Rischi e Mitigazioni della Privacy Composizionale nella Collaborazione Multi-Agente
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
Autori: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano parte integrante dei sistemi multi-agente, emergono nuovi rischi per la privacy che vanno oltre la memorizzazione, l'inferenza diretta o le valutazioni a singolo turno. In particolare, risposte apparentemente innocue, se composte attraverso interazioni, possono cumulativamente consentire agli avversari di recuperare informazioni sensibili, un fenomeno che definiamo come perdita di privacy composizionale. Presentiamo il primo studio sistematico di tali perdite di privacy composizionali e dei possibili metodi di mitigazione nei sistemi multi-agente basati su LLM. In primo luogo, sviluppiamo un framework che modella come la conoscenza ausiliaria e le interazioni tra agenti amplifichino congiuntamente i rischi per la privacy, anche quando ogni risposta è benigna se considerata isolatamente. Successivamente, per mitigare questo problema, proponiamo e valutiamo due strategie di difesa: (1) la difesa basata sulla Teoria della Mente (ToM), in cui gli agenti difensori inferiscono l'intento di un interrogante anticipando come i loro output possano essere sfruttati dagli avversari, e (2) la difesa basata sul Consenso Collaborativo (CoDef), in cui gli agenti rispondenti collaborano con i pari che votano in base a uno stato aggregato condiviso per limitare la diffusione di informazioni sensibili. Fondamentalmente, bilanciamo la nostra valutazione tra composizioni che espongono informazioni sensibili e composizioni che producono inferenze benigne. I nostri esperimenti quantificano come queste strategie di difesa differiscano nel bilanciare il compromesso tra privacy e utilità. Scopriamo che mentre il ragionamento a catena (chain-of-thought) da solo offre una protezione limitata contro le perdite (~39% di blocco delle informazioni sensibili), la nostra difesa ToM migliora sostanzialmente il blocco delle query sensibili (fino al 97%) ma può ridurre il successo nei compiti benigni. CoDef raggiunge il miglior equilibrio, producendo il più alto risultato bilanciato (79,8%), evidenziando il vantaggio di combinare il ragionamento esplicito con la collaborazione tra difensori. Insieme, i nostri risultati rivelano una nuova classe di rischi nelle implementazioni collaborative degli LLM e forniscono indicazioni pratiche per progettare salvaguardie contro le perdite di privacy composizionali e guidate dal contesto.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.