Vous avez un secret ? Les agents LLM ne peuvent pas le garder : Évaluation de la confidentialité dans les systèmes multi-agents

Résumé

Les évaluations de sécurité des LLM testent principalement les modèles de manière isolée, mais les agents d'IA déployés opèrent de plus en plus dans des environnements sociaux persistants aux côtés d'autres agents. Nous présentons une plateforme de simulation de type Moltbook où des milliers d'agents LLM interagissent au sein de communautés pendant un mois simulé, et l'utilisons pour évaluer la vie privée en tant que préoccupation de sécurité en aval sous divers degrés de pression sociale. Nous constatons que le passage d'une évaluation sociale à un seul tour à une évaluation à plusieurs tours amplifie les violations de la vie privée (CIMemories 19,95 % à Notre méthode 45,30 % pour les modèles OpenAI), que les fuites sont socialement contagieuses, les agents étant 8 fois plus susceptibles de divulguer des informations sensibles après avoir observé un pair le faire, et que des instructions explicites sur la vie privée réduisent mais n'éliminent pas cet effet, laissant des taux de fuite supérieurs à 37,8 % même avec des mesures de protection. Nos résultats suggèrent que les références de sécurité statiques basées sur des dialogues sous-estiment systématiquement les risques en contexte de déploiement agentique, et que le contexte social seul suffit à provoquer des divulgations sensibles que les évaluations à un seul tour ne révéleraient jamais.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.