Il Diavolo dietro Moltbook: la sicurezza antropica svanisce sempre nelle società di IA auto-evolventi

Abstract

L'emergere di sistemi multi-agente costruiti su modelli linguistici di grandi dimensioni (LLM) offre un paradigma promettente per l'intelligenza collettiva scalabile e l'auto-evoluzione. Idealmente, tali sistemi dovrebbero raggiungere un miglioramento continuo in un ciclo completamente chiuso, mantenendo al contempo un robusto allineamento di sicurezza – una combinazione che definiamo il trilemma dell'auto-evoluzione. Tuttavia, dimostriamo sia teoricamente che empiricamente che una società di agenti che soddisfi l'auto-evoluzione continua, l'isolamento completo e l'invarianza di sicurezza è impossibile. Basandoci su un quadro teorico dell'informazione, formalizziamo la sicurezza come il grado di divergenza dalle distribuzioni di valori antropici. Dimostriamo teoricamente che l'auto-evoluzione isolata induce punti ciechi statistici, portando al degrado irreversibile dell'allineamento di sicurezza del sistema. Risultati empirici e qualitativi provenienti da una comunità di agenti ad evoluzione aperta (Moltbook) e da due sistemi chiusi auto-evolutivi rivelano fenomeni in linea con la nostra previsione teorica di un'inevitabile erosione della sicurezza. Proponiamo inoltre diverse direzioni di soluzione per alleviare il problema di sicurezza identificato. Il nostro lavoro stabilisce un limite fondamentale per le società di IA auto-evolutive e sposta il discorso dagli interventi di sicurezza sintomatici verso una comprensione principiata dei rischi dinamici intrinseci, evidenziando la necessità di supervisione esterna o di nuovi meccanismi di preservazione della sicurezza.

English

The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.

Il Diavolo dietro Moltbook: la sicurezza antropica svanisce sempre nelle società di IA auto-evolventi

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Abstract

Support