A Soma Vaza Mais do que Suas Partes: Riscos e Mitigações de Privacidade Composicional na Colaboração Multiagente
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
Autores: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) se tornam parte integrante de sistemas multiagentes, novos riscos de privacidade surgem, indo além da memorização, inferência direta ou avaliações de interação única. Em particular, respostas aparentemente inócuas, quando compostas ao longo de interações, podem permitir que adversários recuperem informações sensíveis de forma cumulativa, um fenômeno que denominamos vazamento de privacidade composicional. Apresentamos o primeiro estudo sistemático desses vazamentos de privacidade composicional e possíveis métodos de mitigação em sistemas multiagentes baseados em LLMs. Primeiro, desenvolvemos um framework que modela como o conhecimento auxiliar e as interações entre agentes amplificam conjuntamente os riscos à privacidade, mesmo quando cada resposta é benigna isoladamente. Em seguida, para mitigar isso, propomos e avaliamos duas estratégias de defesa: (1) Defesa de Teoria da Mente (ToM), onde agentes defensores inferem a intenção de um questionador ao antecipar como suas saídas podem ser exploradas por adversários, e (2) Defesa de Consenso Colaborativo (CoDef), onde agentes respondedores colaboram com pares que votam com base em um estado agregado compartilhado para restringir a disseminação de informações sensíveis. Crucialmente, equilibramos nossa avaliação entre composições que expõem informações sensíveis e composições que resultam em inferências benignas. Nossos experimentos quantificam como essas estratégias de defesa diferem no equilíbrio entre privacidade e utilidade. Descobrimos que, embora a cadeia de pensamento (chain-of-thought) por si só ofereça proteção limitada contra vazamentos (~39% de taxa de bloqueio de informações sensíveis), nossa defesa ToM melhora substancialmente o bloqueio de consultas sensíveis (até 97%), mas pode reduzir o sucesso em tarefas benignas. O CoDef alcança o melhor equilíbrio, resultando no maior Resultado Balanceado (79,8%), destacando o benefício de combinar raciocínio explícito com colaboração entre defensores. Juntos, nossos resultados expõem uma nova classe de riscos em implantações colaborativas de LLMs e fornecem insights acionáveis para projetar salvaguardas contra vazamentos de privacidade composicionais e orientados por contexto.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.