Der Teufel hinter Moltbook: Anthropische Sicherheit verschwindet stets in sich selbst entwickelnden KI-Gesellschaften
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
February 10, 2026
papers.authors: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI
papers.abstract
Die Entstehung von Multi-Agenten-Systemen auf Basis großer Sprachmodelle (LLMs) bietet ein vielversprechendes Paradigma für skalierbare kollektive Intelligenz und Selbstevolution. Im Idealfall würden solche Systeme kontinuierliche Selbstverbesserung in einem vollständig geschlossenen Kreislauf erreichen und dabei eine robuste Sicherheitsausrichtung (Safety Alignment) beibehalten – eine Kombination, die wir als Selbstevolutions-Trilemma bezeichnen. Wir zeigen jedoch sowohl theoretisch als auch empirisch, dass eine Agentengesellschaft, die kontinuierliche Selbstevolution, vollständige Isolation und Sicherheitsinvarianz erfüllt, unmöglich ist.
Gestützt auf einen informationstheoretischen Rahmen formalisieren wir Sicherheit als Grad der Abweichung von anthropischen Wertverteilungen. Wir beweisen theoretisch, dass isolierte Selbstevolution statistische Blindstellen erzeugt, die zu einem irreversiblen Abbau der Sicherheitsausrichtung des Systems führen. Empirische und qualitative Ergebnisse aus einer offenen Agentengemeinschaft (Moltbook) sowie zwei geschlossenen, sich selbst entwickelnden Systemen zeigen Phänomene, die mit unserer theoretischen Vorhersage eines unvermeidlichen Sicherheitsverfalls übereinstimmen.
Wir schlagen außerdem mehrere Lösungsansätze vor, um das identifizierte Sicherheitsproblem abzumildern. Unsere Arbeit legt eine fundamentale Grenze für sich selbst entwickelnde KI-Gesellschaften fest und verlagert den Diskurs von symptomorientierten Sicherheitskorrekturen hin zu einem prinzipienbasierten Verständnis intrinsischer dynamischer Risiken. Dies unterstreicht die Notwendigkeit externer Aufsicht oder neuartiger sicherheitserhaltender Mechanismen.
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.