悪魔はモルトブックの背後に:自己進化するAI社会におけるアンソロピック安全性の常なる消失
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
February 10, 2026
著者: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI
要旨
大規模言語モデル(LLM)から構築されるマルチエージェントシステムの出現は、スケーラブルな集団知能と自己進化に向けた有望なパラダイムを提供する。理想的には、こうしたシステムは堅牢な安全性整合性を維持しつつ、完全な閉ループで持続的な自己改善を達成するだろう。この組み合わせを我々は「自己進化のトリレンマ」と呼ぶ。しかし我々は、理論的・実証的に、持続的自己進化・完全な隔離・安全性不変性を同時に満たすエージェント社会が不可能であることを示す。情報理論的枠組みに基づき、安全性を人間的価値分布からの乖離度として形式化する。理論的に、隔離された自己進化は統計的な盲点を誘発し、システムの安全性整合性が不可逆的に劣化することを示す。オープンエンドのエージェントコミュニティ(Moltbook)と2つの閉鎖的自己進化システムにおける実証的・定性的結果は、安全性の不可避的な侵食という理論的予測と整合する現象を明らかにする。さらに、特定された安全性課題を緩和するための複数の解決方向性を提案する。本研究は自己進化するAI社会における根本的限界を確立し、症状対処的な安全性パッチから、内在的動的リスクの原理的理解へと議論を転換させる。外部監視または新たな安全性維持メカニズムの必要性を浮き彫りにするものである。
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.