AgentSocialBench: Evaluatie van privacyrisico's in mensgerichte agentgestuurde sociale netwerken

Samenvatting

Met de opkomst van gepersonaliseerde, persistente LLM-agentframeworks zoals OpenClaw worden mensgerichte, agent-gedreven sociale netwerken waarin teams van collaboratieve AI-agenten individuele gebruikers in een sociaal netwerk bedienen across meerdere domeinen, werkelijkheid. Deze setting creëert nieuwe privacyuitdagingen: agenten moeten coördineren over domeingrenzen heen, bemiddelen tussen mensen en interacteren met de agenten van andere gebruikers, allemaal terwijl ze gevoelige persoonlijke informatie moeten beschermen. Hoewel eerder werk multi-agentcoördinatie en privacybescherming heeft geëvalueerd, blijven de dynamiek en privacyrisico's van mensgerichte agent-gedreven sociale netwerken onontgonnen. Daartoe introduceren wij AgentSocialBench, de eerste benchmark om privacyrisico's in deze setting systematisch te evalueren, bestaande uit scenario's in zeven categorieën die dyadische en multi-party interacties omvatten, gegrond in realistische gebruikersprofielen met hiërarchische gevoeligheidsetiketten en gerichte sociale grafen. Onze experimenten tonen aan dat privacy in agent-gedreven sociale netwerken fundamenteel moeilijker is dan in single-agent settings: (1) coördinatie over domeinen en gebruikers heen creëert een aanhoudende druk op informatielekkage, zelfs wanneer agenten expliciet de instructie hebben om informatie te beschermen, (2) privacy-instructies die agenten leren gevoelige informatie te abstraheren, zorgen er paradoxaal genoeg voor dat ze er meer over discussiëren (wij noemen dit de abstractieparadox). Deze bevindingen onderstrepen dat huidige LLM-agenten robuuste mechanismen voor privacybescherming in mensgerichte agent-gedreven sociale netwerken missen, en dat nieuwe benaderingen beyond prompt engineering nodig zijn om door agenten bemiddelde sociale coördinatie veilig te maken voor inzet in de echte wereld.

English

With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel privacy challenges: agents must coordinate across domain boundaries, mediate between humans, and interact with other users' agents, all while protecting sensitive personal information. While prior work has evaluated multi-agent coordination and privacy preservation, the dynamics and privacy risks of human-centered agentic social networks remain unexplored. To this end, we introduce AgentSocialBench, the first benchmark to systematically evaluate privacy risk in this setting, comprising scenarios across seven categories spanning dyadic and multi-party interactions, grounded in realistic user profiles with hierarchical sensitivity labels and directed social graphs. Our experiments reveal that privacy in agentic social networks is fundamentally harder than in single-agent settings: (1) cross-domain and cross-user coordination creates persistent leakage pressure even when agents are explicitly instructed to protect information, (2) privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more (we call it abstraction paradox). These findings underscore that current LLM agents lack robust mechanisms for privacy preservation in human-centered agentic social networks, and that new approaches beyond prompt engineering are needed to make agent-mediated social coordination safe for real-world deployment.

AgentSocialBench: Evaluatie van privacyrisico's in mensgerichte agentgestuurde sociale netwerken

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Samenvatting

Support