El Diablo Detrás de Moltbook: La Seguridad Antrópica Siempre se Desvanece en las Sociedades de IA Autoevolutivas
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
February 10, 2026
Autores: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI
Resumen
El surgimiento de sistemas multiagente construidos a partir de modelos de lenguaje extensos (LLM) ofrece un paradigma prometedor para la inteligencia colectiva escalable y la autoevolución. Idealmente, dichos sistemas lograrían una mejora continua en un bucle completamente cerrado, manteniendo al mismo tiempo una sólida alineación de seguridad, una combinación que denominamos el trilema de la autoevolución. Sin embargo, demostramos tanto teórica como empíricamente que es imposible una sociedad de agentes que satisfaga la autoevolución continua, el aislamiento completo y la invariancia de seguridad. Basándonos en un marco teórico de la información, formalizamos la seguridad como el grado de divergencia de las distribuciones de valores antrópicos. Demostramos teóricamente que la autoevolución aislada induce puntos ciegos estadísticos, lo que conduce a la degradación irreversible de la alineación de seguridad del sistema. Los resultados empíricos y cualitativos de una comunidad de agentes abierta (Moltbook) y de dos sistemas cerrados de autoevolución revelan fenómenos que se alinean con nuestra predicción teórica de una inevitable erosión de la seguridad. Además, proponemos varias direcciones de solución para paliar el problema de seguridad identificado. Nuestro trabajo establece un límite fundamental para las sociedades de IA autoevolutivas y desplaza el discurso desde los parches de seguridad sintomáticos hacia una comprensión fundamentada de los riesgos dinámicos intrínsecos, destacando la necesidad de supervisión externa o de nuevos mecanismos que preserven la seguridad.
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.