O Demônio por Trás do Moltbook: A Segurança Antrópica Está Sempre a Desvanecer-se em Sociedades de IA Auto-Evolutivas

Resumo

O surgimento de sistemas multiagentes construídos a partir de grandes modelos de linguagem (LLMs) oferece um paradigma promissor para a inteligência coletiva escalável e a auto-evolução. Idealmente, tais sistemas alcançariam uma melhoria contínua em um ciclo completamente fechado, mantendo ao mesmo tempo um alinhamento robusto de segurança – uma combinação que denominamos de trilema da auto-evolução. No entanto, demonstramos tanto teórica quanto empiricamente que uma sociedade de agentes que satisfaça a auto-evolução contínua, o isolamento completo e a invariância de segurança é impossível. Com base em um arcabouço teórico da informação, formalizamos a segurança como o grau de divergência em relação a distribuições de valores antrópicos. Demonstramos teoricamente que a auto-evolução isolada induz pontos cegos estatísticos, levando à degradação irreversível do alinhamento de segurança do sistema. Resultados empíricos e qualitativos de uma comunidade de agentes de mundo aberto (Moltbook) e de dois sistemas fechados de auto-evolução revelam fenômenos que se alinham com a nossa previsão teórica de erosão inevitável da segurança. Propomos ainda várias direções de solução para atenuar a preocupação de segurança identificada. O nosso trabalho estabelece um limite fundamental para as sociedades de IA auto-evolutivas e desloca o discurso dos remendos de segurança orientados a sintomas para uma compreensão fundamentada dos riscos dinâmicos intrínsecos, destacando a necessidade de supervisão externa ou de novos mecanismos de preservação da segurança.

English

The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.

O Demônio por Trás do Moltbook: A Segurança Antrópica Está Sempre a Desvanecer-se em Sociedades de IA Auto-Evolutivas

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Resumo

Support