Hast du ein Geheimnis? LLM-Agenten können es nicht für sich behalten: Bewertung der Privatsphäre in Multi-Agenten-Systemen

Zusammenfassung

LLM-Sicherheitsevaluierungen testen Modelle überwiegend in Isolation, doch eingesetzte KI-Agenten operieren zunehmend in persistenten sozialen Umgebungen zusammen mit anderen Agenten. Wir stellen eine Moltbook-ähnliche Simulationsplattform vor, in der tausende LLM-Agenten über einen simulierten Monat hinweg in Gemeinschaften interagieren, und nutzen diese, um Privatsphäre als nachgelagertes Sicherheitsproblem unter verschiedenen Graden sozialen Drucks zu evaluieren. Wir stellen fest, dass der Übergang von einzeitigen zu mehrzeitigen sozialen Evaluierungen Datenschutzverletzungen verstärkt (CIMemories 19,95 % vs. unsere 45,30 % bei OpenAI-Modellen), dass Datenlecks sozial ansteckend sind – Agenten geben mit 8-fach höherer Wahrscheinlichkeit sensible Informationen preis, nachdem sie einen Gleichaltrigen dies tun sahen – und dass explizite Datenschutzanweisungen diesen Effekt reduzieren, aber nicht eliminieren, sodass die Leckrate selbst mit Schutzmaßnahmen über 37,8 % bleibt. Unsere Ergebnisse deuten darauf hin, dass statische chatbasierte Sicherheitsbenchmarks Risiken im agentischen Einsatz systematisch unterschätzen und dass allein der soziale Kontext ausreicht, um sensible Offenlegungen auszulösen, die einzeitige Evaluierungen niemals aufdecken würden.

English

LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.