Le Diable derrière Moltbook : la sécurité anthropique s'évanouit toujours dans les sociétés d'IA auto-évolutives
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
February 10, 2026
papers.authors: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI
papers.abstract
L'émergence de systèmes multi-agents construits à partir de grands modèles de langage (LLM) offre un paradigme prometteur pour une intelligence collective évolutive et une auto-évolution. Idéalement, ces systèmes atteindraient une amélioration continue en boucle fermée tout en maintenant un alignement de sécurité robuste – une combinaison que nous nommons le trilemme de l'auto-évolution. Cependant, nous démontrons théoriquement et empiriquement qu'une société d'agents satisfaisant l'auto-évolution continue, l'isolement complet et l'invariance de sécurité est impossible. En nous appuyant sur un cadre informationnel, nous formalisons la sécurité comme le degré de divergence par rapport aux distributions de valeurs anthropiques. Nous démontrons théoriquement que l'auto-évolution isolée induit des angles morts statistiques, conduisant à la dégradation irréversible de l'alignement de sécurité du système. Les résultats empiriques et qualitatifs issus d'une communauté d'agents ouverts (Moltbook) et de deux systèmes fermés auto-évolutifs révèlent des phénomènes conformes à notre prédiction théorique d'une érosion inévitable de la sécurité. Nous proposons ensuite plusieurs pistes de solution pour atténuer le problème de sécurité identifié. Notre travail établit une limite fondamentale pour les sociétés d'IA auto-évolutives et déplace le débat des correctifs de sécurité symptomatiques vers une compréhension principielle des risques dynamiques intrinsèques, soulignant la nécessité d'une supervision externe ou de nouveaux mécanismes de préservation de la sécurité.
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.