Een geheim? LLM-agenten kunnen het niet geheimhouden: Evaluatie van privacy in multi-agentsystemen.

Samenvatting

Veiligheidsevaluaties van LLM's testen modellen voornamelijk in isolatie, maar ingezette AI-agenten opereren steeds vaker in persistente sociale omgevingen naast andere agenten. We introduceren een Moltbook-achtig simulatieplatform waar duizenden LLM-agenten gedurende een gesimuleerde maand met elkaar interacteren in gemeenschappen, en gebruiken dit om privacy als een downstream veiligheidskwestie te evalueren onder verschillende gradaties van sociale druk. We constateren dat de overgang van eenmalige naar meerstaps sociale evaluatie privacyinbreuken versterkt (CIMemories 19,95% naar onze resultaten 45,30% bij OpenAI-modellen), dat datalekken sociaal besmettelijk zijn, waarbij agenten 8 keer zoveel kans hebben om gevoelige informatie te onthullen nadat ze een collega dit hebben zien doen, en dat expliciete privacy-instructies dit effect weliswaar verminderen maar niet elimineren, met lekkagepercentages boven 37,8%, zelfs met beveiligingsmaatregelen. Onze bevindingen suggereren dat statische op chat gebaseerde veiligheidsbenchmarks systematisch risico's bij de inzet van agenten onderschatten, en dat sociale context alleen al voldoende is om gevoelige onthullingen uit te lokken die eenmalige evaluaties nooit aan het licht zouden brengen.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.