AgentSocialBench: Evaluación de Riesgos de Privacidad en Redes Sociales Agénticas Centradas en el Ser Humano

Resumen

Con el auge de marcos de trabajo de agentes de LLM persistentes y personalizados, como OpenClaw, las redes sociales agentivas centradas en el ser humano, en las que equipos de agentes de IA colaborativos sirven a usuarios individuales en una red social a través de múltiples dominios, se están convirtiendo en una realidad. Este entorno genera nuevos desafíos de privacidad: los agentes deben coordinarse a través de los límites de los dominios, mediar entre humanos e interactuar con los agentes de otros usuarios, todo mientras protegen información personal sensible. Si bien trabajos anteriores han evaluado la coordinación multiagente y la preservación de la privacidad, la dinámica y los riesgos de privacidad de las redes sociales agentivas centradas en el ser humano siguen sin explorarse. Para ello, presentamos AgentSocialBench, el primer benchmark para evaluar sistemáticamente el riesgo de privacidad en este contexto, que comprende escenarios en siete categorías que abarcan interacciones diádicas y multipartidistas, basados en perfiles de usuario realistas con etiquetas de sensibilidad jerárquicas y grafos sociales dirigidos. Nuestros experimentos revelan que la privacidad en las redes sociales agentivas es fundamentalmente más difícil que en entornos de agente único: (1) la coordinación entre dominios y usuarios crea una presión de filtración persistente incluso cuando se instruye explícitamente a los agentes para proteger la información, (2) las instrucciones de privacidad que enseñan a los agentes a abstraer información sensible paradójicamente hacen que la discutan más (lo llamamos la paradoja de la abstracción). Estos hallazgos subrayan que los agentes de LLM actuales carecen de mecanismos robustos para la preservación de la privacidad en redes sociales agentivas centradas en el ser humano, y que se necesitan nuevos enfoques más allá de la ingeniería de prompts para que la coordinación social mediada por agentes sea segura para su implementación en el mundo real.

English

With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel privacy challenges: agents must coordinate across domain boundaries, mediate between humans, and interact with other users' agents, all while protecting sensitive personal information. While prior work has evaluated multi-agent coordination and privacy preservation, the dynamics and privacy risks of human-centered agentic social networks remain unexplored. To this end, we introduce AgentSocialBench, the first benchmark to systematically evaluate privacy risk in this setting, comprising scenarios across seven categories spanning dyadic and multi-party interactions, grounded in realistic user profiles with hierarchical sensitivity labels and directed social graphs. Our experiments reveal that privacy in agentic social networks is fundamentally harder than in single-agent settings: (1) cross-domain and cross-user coordination creates persistent leakage pressure even when agents are explicitly instructed to protect information, (2) privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more (we call it abstraction paradox). These findings underscore that current LLM agents lack robust mechanisms for privacy preservation in human-centered agentic social networks, and that new approaches beyond prompt engineering are needed to make agent-mediated social coordination safe for real-world deployment.

AgentSocialBench: Evaluación de Riesgos de Privacidad en Redes Sociales Agénticas Centradas en el Ser Humano

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Resumen

Support