몰트북 뒤에 숨은 악마: 자기 진화하는 AI 사회에서 안전성은 항상 사라진다
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
February 10, 2026
저자: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI
초록
대규모 언어 모델(LLM)으로 구축된 다중 에이전트 시스템의 등장은 확장 가능한 집단 지능과 자기 진화를 위한 유망한 패러다임을 제시합니다. 이상적으로는 이러한 시스템이 강력한 안전성 정렬을 유지하면서 완전히 폐쇄된 루프 내에서 지속적인 자기 개선을 달성해야 하는데, 우리는 이 조합을 자기 진화 삼중 딜레마라고 명명합니다. 그러나 우리는 이론적 및 실증적으로 지속적인 자기 진화, 완전한 격리, 안전성 불변성을 모두 충족하는 에이전트 사회는 불가능함을 입증합니다. 정보 이론적 프레임워크를 통해 안전성을 인간 가치 분포로부터의 발산 정도로 형식화합니다. 우리는 이론적으로 격리된 자기 진화가 통계적 사각지대를 유발하여 시스템의 안전성 정렬이 비가역적으로 악화됨을 증명합니다. 개방형 에이전트 커뮤니티(Moltbook)와 두 개의 폐쇄형 자기 진화 시스템에서 얻은 실증 및 정성적 결과는 불가피한 안전성 침식에 대한 우리의 이론적 예측과 부합하는 현상을 보여줍니다. 우리는 더 나아가 확인된 안전성 문제를 완화하기 위한 몇 가지 해결 방향을 제안합니다. 우리 연구는 자기 진화 인공지능 사회에 대한 근본적 한계를 규명하고, 증상 중심의 안전성 패치 논의에서 내재적 역학적 위험에 대한 원칙적 이해로 담론을 전환하며, 외부 감독이나 새로운 안전성 보존 메커니즘의 필요성을 강조합니다.
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.