AgentSocialBench: Valutazione dei Rischi per la Privacy nelle Reti Sociali Agenti-Centrate sull'Uomo

Abstract

Con l'emergere di framework di agenti LLM persistenti e personalizzati come OpenClaw, le reti sociali agent-centriche orientate all'uomo, in cui team di agenti IA collaborativi servono utenti individuali in una rete sociale attraverso molteplici domini, stanno diventando una realtà. Questo contesto crea nuove sfide per la privacy: gli agenti devono coordinarsi oltre i confini di dominio, mediare tra esseri umani e interagire con gli agenti di altri utenti, il tutto proteggendo informazioni personali sensibili. Sebbene lavori precedenti abbiano valutato il coordinamento multi-agente e la preservazione della privacy, le dinamiche e i rischi per la privacy nelle reti sociali agent-centriche orientate all'uomo rimangono inesplorati. A tal fine, introduciamo AgentSocialBench, il primo benchmark per valutare sistematicamente il rischio per la privacy in questo contesto, comprendente scenari in sette categorie che abbracciano interazioni diadiche e multipartecipanti, basati su profili utente realistici con etichette di sensibilità gerarchiche e grafi sociali diretti. I nostri esperimenti rivelano che la privacy nelle reti sociali agent-centriche è fondamentalmente più difficile che in contesti mono-agente: (1) il coordinamento cross-dominio e cross-utente crea una pressione di dispersione persistente anche quando agli agenti viene esplicitamente ordinato di proteggere le informazioni, (2) le istruzioni sulla privacy che insegnano agli agenti come astrarre le informazioni sensibili paradossalmente li portano a discuterne di più (lo definiamo paradosso dell'astrazione). Questi risultati sottolineano che gli attuali agenti LLM mancano di meccanismi robusti per la preservazione della privacy nelle reti sociali agent-centriche orientate all'uomo, e che sono necessari nuovi approcci oltre l'ingegneria dei prompt per rendere sicuro il coordinamento sociale mediato da agenti per un dispiegamento nel mondo reale.

English

With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel privacy challenges: agents must coordinate across domain boundaries, mediate between humans, and interact with other users' agents, all while protecting sensitive personal information. While prior work has evaluated multi-agent coordination and privacy preservation, the dynamics and privacy risks of human-centered agentic social networks remain unexplored. To this end, we introduce AgentSocialBench, the first benchmark to systematically evaluate privacy risk in this setting, comprising scenarios across seven categories spanning dyadic and multi-party interactions, grounded in realistic user profiles with hierarchical sensitivity labels and directed social graphs. Our experiments reveal that privacy in agentic social networks is fundamentally harder than in single-agent settings: (1) cross-domain and cross-user coordination creates persistent leakage pressure even when agents are explicitly instructed to protect information, (2) privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more (we call it abstraction paradox). These findings underscore that current LLM agents lack robust mechanisms for privacy preservation in human-centered agentic social networks, and that new approaches beyond prompt engineering are needed to make agent-mediated social coordination safe for real-world deployment.

AgentSocialBench: Valutazione dei Rischi per la Privacy nelle Reti Sociali Agenti-Centrate sull'Uomo

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Abstract

Support