ChatPaper.aiChatPaper

Дьявол в деталях Moltbook: Безопасность Anthropic исчезает в саморазвивающихся обществах ИИ

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

February 10, 2026
Авторы: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu
cs.AI

Аннотация

Появление многоагентных систем, построенных на основе больших языковых моделей (БЯМ), открывает перспективную парадигму для масштабируемого коллективного интеллекта и саморазвития. В идеале такие системы могли бы достигать непрерывного самосовершенствования в полностью замкнутом цикле, сохраняя при этом надежную ценностную безопасность — комбинацию, которую мы называем трилеммой саморазвития. Однако мы теоретически и эмпирически демонстрируем, что агентное общество, удовлетворяющее условиям непрерывного саморазвития, полной изоляции и инвариантности безопасности, невозможно. Используя информационно-теоретический подход, мы формализуем безопасность как степень расхождения с антропными ценностными распределениями. Теоретически мы показываем, что изолированное саморазвитие порождает статистические «слепые зоны», ведущие к необратимому ухудшению ценностной безопасности системы. Эмпирические и качественные результаты, полученные на открытом агентном сообществе (Moltbook) и двух замкнутых саморазвивающихся системах, выявляют феномены, согласующиеся с нашим теоретическим предсказанием неизбежной эрозии безопасности. Мы также предлагаем несколько направлений решений для смягчения выявленной проблемы безопасности. Наша работа устанавливает фундаментальный предел для саморазвивающихся ИИ-обществ и смещает дискуссию от симптоматичных заплаток безопасности к принципиальному пониманию внутренних динамических рисков, подчеркивая необходимость внешнего надзора или новых механизмов сохранения безопасности.
English
The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.
PDF1692February 14, 2026