R^textbf{2AI}: На пути к устойчивому и адаптивному искусственному интеллекту в изменяющемся мире
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
Авторы: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
Аннотация
В данной позиционной статье мы рассматриваем сохраняющийся разрыв между стремительно растущими возможностями ИИ и отстающим прогрессом в области безопасности. Существующие парадигмы делятся на «Сделать ИИ безопасным», которая применяет постфактумное согласование и защитные механизмы, но остается хрупкой и реактивной, и «Создать безопасный ИИ», которая делает акцент на внутренней безопасности, но сталкивается с трудностями в устранении непредвиденных рисков в открытых средах. Мы предлагаем безопасность через коэволюцию как новую формулировку парадигмы «Создать безопасный ИИ», вдохновленную биологическим иммунитетом, где безопасность становится динамическим, состязательным и непрерывным процессом обучения. Для реализации этого видения мы представляем R^2AI — Устойчивый и Живучий ИИ — как практическую структуру, объединяющую устойчивость к известным угрозам и живучесть перед лицом непредвиденных рисков. R^2AI интегрирует быстрые и медленные модели безопасности, состязательное моделирование и верификацию через «аэродинамическую трубу безопасности», а также непрерывные циклы обратной связи, которые направляют коэволюцию безопасности и возможностей. Мы утверждаем, что эта структура предлагает масштабируемый и проактивный путь для поддержания постоянной безопасности в динамичных средах, устраняя как краткосрочные уязвимости, так и долгосрочные экзистенциальные риски по мере продвижения ИИ к ОИИ (общему искусственному интеллекту) и СИИ (сверхинтеллекту).
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.