AgentSocialBench: Оценка рисков приватности в ориентированных на человека агентно-социальных сетях

Аннотация

С появлением персонализированных устойчивых фреймворков агентов на основе больших языковых моделей (LLM), таких как OpenClaw, становятся реальностью ориентированные на человека агентные социальные сети, в которых команды коллаборативных ИИ-агентов обслуживают отдельных пользователей в социальной сети в различных доменах. Эта среда создает новые проблемы конфиденциальности: агенты должны координировать действия через границы доменов, выступать посредниками между людьми и взаимодействовать с агентами других пользователей, одновременно защищая конфиденциальную личную информацию. В то время как предыдущие работы оценивали многоагентную координацию и сохранение приватности, динамика и риски конфиденциальности в ориентированных на человека агентных социальных сетях остаются неисследованными. Для решения этой задачи мы представляем AgentSocialBench — первый бенчмарк для систематической оценки рисков приватности в данном контексте, включающий сценарии из семи категорий, охватывающих диадические и многосторонние взаимодействия, основанные на реалистичных пользовательских профилях с иерархическими метками чувствительности и направленными социальными графами. Наши эксперименты показывают, что обеспечение конфиденциальности в агентных социальных сетях принципиально сложнее, чем в одноагентных средах: (1) кросс-доменная и кросс-пользовательская координация создает постоянное давление на утечку информации, даже когда агенты явно инструктированы защищать ее; (2) инструкции по конфиденциальности, которые учат агентов абстрагировать чувствительную информацию, парадоксальным образом заставляют их обсуждать ее чаще (мы называем это парадоксом абстракции). Эти результаты подчеркивают, что современные LLM-агенты не обладают надежными механизмами для сохранения приватности в ориентированных на человека агентных социальных сетях, и что для безопасного развертывания агент-опосредованной социальной координации в реальном мире необходимы новые подходы, выходящие за рамки инженерии промптов.

English

With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel privacy challenges: agents must coordinate across domain boundaries, mediate between humans, and interact with other users' agents, all while protecting sensitive personal information. While prior work has evaluated multi-agent coordination and privacy preservation, the dynamics and privacy risks of human-centered agentic social networks remain unexplored. To this end, we introduce AgentSocialBench, the first benchmark to systematically evaluate privacy risk in this setting, comprising scenarios across seven categories spanning dyadic and multi-party interactions, grounded in realistic user profiles with hierarchical sensitivity labels and directed social graphs. Our experiments reveal that privacy in agentic social networks is fundamentally harder than in single-agent settings: (1) cross-domain and cross-user coordination creates persistent leakage pressure even when agents are explicitly instructed to protect information, (2) privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more (we call it abstraction paradox). These findings underscore that current LLM agents lack robust mechanisms for privacy preservation in human-centered agentic social networks, and that new approaches beyond prompt engineering are needed to make agent-mediated social coordination safe for real-world deployment.

AgentSocialBench: Оценка рисков приватности в ориентированных на человека агентно-социальных сетях

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Аннотация

Support