部分の和は全体よりも漏れる:マルチエージェント協調における構成上のプライバシーリスクとその緩和策
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
著者: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
要旨
大規模言語モデル(LLM)がマルチエージェントシステムにおいて不可欠な存在となるにつれ、記憶化、直接推論、または単一ターン評価を超えた新たなプライバシーリスクが浮上している。特に、一見無害な応答が、相互作用全体で組み合わさることで、攻撃者が機密情報を復元できる可能性が累積的に高まる現象を、我々は「合成的プライバシー漏洩」と呼ぶ。本論文では、マルチエージェントLLMシステムにおけるこのような合成的プライバシー漏洩とその緩和手法について、初めて体系的な研究を提示する。まず、補助知識とエージェント間の相互作用が、個々の応答が単独では無害であっても、プライバシーリスクを共同で増幅する仕組みをモデル化する枠組みを開発する。次に、これを緩和するため、二つの防御戦略を提案し評価する:(1)「心の理論防御(ToM)」では、防御側エージェントが質問者の意図を推測し、自身の出力が攻撃者に悪用される可能性を予測する。(2)「協調的合意防御(CoDef)」では、応答側エージェントが、共有された集約状態に基づいて投票する仲間と協力し、機密情報の拡散を制限する。重要な点として、評価においては、機密情報を暴露する合成的相互作用と、無害な推論をもたらす合成的相互作用のバランスを取る。実験結果から、これらの防御戦略がプライバシーと有用性のトレードオフをどのようにバランスするかを定量化する。思考連鎖単独では漏洩に対する保護が限定的(約39%の機密ブロック率)であるのに対し、ToM防御は機密クエリのブロックを大幅に改善(最大97%)するが、無害なタスクの成功率を低下させる可能性がある。CoDefは最も優れたバランスを達成し、最高のバランスドアウトカム(79.8%)を示し、明示的な推論と防御側の協力を組み合わせることの利点を強調する。全体として、本研究は、協調的LLM展開における新たなリスククラスを明らかにし、合成的で文脈駆動型のプライバシー漏洩に対する保護策を設計するための実践的な洞察を提供する。
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.