Сумма раскрывает больше, чем её части: композиционные риски конфиденциальности и методы их снижения в многоагентном взаимодействии
The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
September 16, 2025
Авторы: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) становятся неотъемлемой частью многозадачных систем, возникают новые риски для конфиденциальности, выходящие за рамки запоминания, прямого вывода или одношаговых оценок. В частности, казалось бы, безобидные ответы, объединенные в рамках взаимодействий, могут в совокупности позволить злоумышленникам восстановить конфиденциальную информацию — явление, которое мы называем композиционной утечкой конфиденциальности. Мы представляем первое систематическое исследование таких композиционных утечек и возможных методов их устранения в многозадачных системах на основе LLM. Сначала мы разрабатываем модель, которая описывает, как вспомогательные знания и взаимодействия агентов совместно усиливают риски для конфиденциальности, даже если каждый ответ по отдельности безвреден. Затем, чтобы смягчить эти риски, мы предлагаем и оцениваем две стратегии защиты: (1) защиту на основе теории сознания (Theory-of-Mind, ToM), где агенты-защитники определяют намерения вопрошающего, предвидя, как их ответы могут быть использованы злоумышленниками, и (2) защиту на основе совместного консенсуса (Collaborative Consensus Defense, CoDef), где агенты-ответчики сотрудничают с коллегами, которые голосуют на основе общего агрегированного состояния, чтобы ограничить распространение конфиденциальной информации. Важно, что наша оценка балансирует между композициями, раскрывающими конфиденциальную информацию, и композициями, приводящими к безвредным выводам. Наши эксперименты количественно оценивают, как эти стратегии защиты различаются в балансировке между конфиденциальностью и полезностью. Мы обнаруживаем, что, хотя цепочка рассуждений сама по себе обеспечивает ограниченную защиту от утечек (~39% блокировки конфиденциальных запросов), наша защита ToM значительно улучшает блокировку конфиденциальных запросов (до 97%), но может снизить успешность выполнения безвредных задач. CoDem достигает наилучшего баланса, обеспечивая наивысший сбалансированный результат (79,8%), что подчеркивает преимущество сочетания явного рассуждения с сотрудничеством защитников. В совокупности наши результаты выявляют новый класс рисков в совместных развертываниях LLM и предоставляют практические рекомендации для разработки мер защиты от композиционных, контекстно-зависимых утечек конфиденциальности.
English
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.