부분의 합보다 더 많이 누출된다: 다중 에이전트 협업에서의 구성적 프라이버시 위험과 완화 방안
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
저자: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
초록
대규모 언어 모델(LLM)이 다중 에이전트 시스템의 핵심 요소로 자리잡으면서, 단순한 암기, 직접 추론 또는 단일 턴 평가를 넘어서는 새로운 프라이버시 위험이 등장하고 있습니다. 특히, 겉보기에는 무해한 응답들이 상호작용을 통해 누적되면, 공격자가 민감한 정보를 복구할 수 있게 되는 현상이 발생하는데, 이를 우리는 '조합적 프라이버시 누출(compositional privacy leakage)'이라고 명명합니다. 본 연구에서는 다중 에이전트 LLM 시스템에서 이러한 조합적 프라이버시 누출과 이를 완화할 수 있는 방법에 대한 첫 번째 체계적인 연구를 제시합니다. 먼저, 보조 지식과 에이전트 상호작용이 각 응답이 개별적으로는 무해하더라도 프라이버시 위험을 어떻게 증폭시키는지를 모델링하는 프레임워크를 개발합니다. 다음으로, 이를 완화하기 위해 두 가지 방어 전략을 제안하고 평가합니다: (1) '마음이론 방어(Theory-of-Mind defense, ToM)'는 방어자 에이전트가 자신의 출력이 공격자에게 어떻게 악용될지 예측하여 질문자의 의도를 추론하는 방식이며, (2) '협력적 합의 방어(Collaborative Consensus Defense, CoDef)'는 응답자 에이전트가 동료들과 협력하여 공유된 집계 상태를 기반으로 투표함으로써 민감한 정보의 확산을 제한하는 방식입니다. 특히, 민감한 정보를 노출시키는 조합과 무해한 추론을 초래하는 조합 간의 균형을 고려하여 평가를 진행합니다. 실험을 통해 이러한 방어 전략들이 프라이버시와 유틸리티 간의 균형을 맞추는 방식이 어떻게 다른지를 정량적으로 분석합니다. 우리는 사고의 연쇄(chain-of-thought)만으로는 누출 방어에 제한적인 효과(~39% 민감 정보 차단율)를 보이는 반면, ToM 방어는 민감한 쿼리 차단율을 크게 향상시키지만(최대 97%) 무해한 작업의 성공률을 감소시킬 수 있음을 발견했습니다. CoDef는 가장 균형 잡힌 결과(79.8% Balanced Outcome)를 달성하며, 명시적 추론과 방어자 협력의 조합이 가져오는 이점을 강조합니다. 종합적으로, 본 연구 결과는 협업형 LLM 배포에서 발생하는 새로운 위험 클래스를 드러내고, 조합적이고 맥락 기반의 프라이버시 누출에 대비한 안전장치 설계를 위한 실행 가능한 통찰을 제공합니다.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.