AgentSocialBench: Avaliação de Riscos de Privacidade em Redes Sociais Agênticas Centradas no Ser Humano

Resumo

Com a ascensão de estruturas de agentes de LLM persistentes e personalizadas, como o OpenClaw, as redes sociais agentivas centradas no ser humano, nas quais equipas de agentes de IA colaborativos servem utilizadores individuais numa rede social através de múltiplos domínios, estão a tornar-se uma realidade. Este cenário cria novos desafios de privacidade: os agentes devem coordenar-se além das fronteiras dos domínios, mediar entre humanos e interagir com os agentes de outros utilizadores, tudo enquanto protegem informações pessoais sensíveis. Embora trabalhos anteriores tenham avaliado a coordenação multiagente e a preservação da privacidade, as dinâmicas e os riscos de privacidade das redes sociais agentivas centradas no ser humano permanecem inexplorados. Para tal, apresentamos o AgentSocialBench, o primeiro benchmark para avaliar sistematicamente o risco de privacidade neste contexto, compreendendo cenários em sete categorias que abrangem interações diádicas e multipartidárias, baseados em perfis de utilizadores realistas com etiquetas de sensibilidade hierárquicas e grafos sociais direcionados. As nossas experiências revelam que a privacidade em redes sociais agentivas é fundamentalmente mais difícil do que em contextos de agente único: (1) a coordenação entre domínios e entre utilizadores cria uma pressão persistente de fuga de informação, mesmo quando os agentes são explicitamente instruídos a protegê-la, (2) instruções de privacidade que ensinam os agentes a abstrair informações sensíveis causam paradoxalmente que estes as discutam mais (designamos isto por paradoxo da abstração). Estas descobertas sublinham que os atuais agentes de LLM carecem de mecanismos robustos para a preservação da privacidade em redes sociais agentivas centradas no ser humano, e que são necessárias novas abordagens para além da engenharia de *prompts* para tornar a coordenação social mediada por agentes segura para a implementação no mundo real.

English

With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel privacy challenges: agents must coordinate across domain boundaries, mediate between humans, and interact with other users' agents, all while protecting sensitive personal information. While prior work has evaluated multi-agent coordination and privacy preservation, the dynamics and privacy risks of human-centered agentic social networks remain unexplored. To this end, we introduce AgentSocialBench, the first benchmark to systematically evaluate privacy risk in this setting, comprising scenarios across seven categories spanning dyadic and multi-party interactions, grounded in realistic user profiles with hierarchical sensitivity labels and directed social graphs. Our experiments reveal that privacy in agentic social networks is fundamentally harder than in single-agent settings: (1) cross-domain and cross-user coordination creates persistent leakage pressure even when agents are explicitly instructed to protect information, (2) privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more (we call it abstraction paradox). These findings underscore that current LLM agents lack robust mechanisms for privacy preservation in human-centered agentic social networks, and that new approaches beyond prompt engineering are needed to make agent-mediated social coordination safe for real-world deployment.

AgentSocialBench: Avaliação de Riscos de Privacidade em Redes Sociais Agênticas Centradas no Ser Humano

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Resumo

Support