R^textbf{2AI}: На пути к устойчивому и адаптивному искусственному интеллекту в изменяющемся мире

Аннотация

В данной позиционной статье мы рассматриваем сохраняющийся разрыв между стремительно растущими возможностями ИИ и отстающим прогрессом в области безопасности. Существующие парадигмы делятся на «Сделать ИИ безопасным», которая применяет постфактумное согласование и защитные механизмы, но остается хрупкой и реактивной, и «Создать безопасный ИИ», которая делает акцент на внутренней безопасности, но сталкивается с трудностями в устранении непредвиденных рисков в открытых средах. Мы предлагаем безопасность через коэволюцию как новую формулировку парадигмы «Создать безопасный ИИ», вдохновленную биологическим иммунитетом, где безопасность становится динамическим, состязательным и непрерывным процессом обучения. Для реализации этого видения мы представляем R^2AI — Устойчивый и Живучий ИИ — как практическую структуру, объединяющую устойчивость к известным угрозам и живучесть перед лицом непредвиденных рисков. R^2AI интегрирует быстрые и медленные модели безопасности, состязательное моделирование и верификацию через «аэродинамическую трубу безопасности», а также непрерывные циклы обратной связи, которые направляют коэволюцию безопасности и возможностей. Мы утверждаем, что эта структура предлагает масштабируемый и проактивный путь для поддержания постоянной безопасности в динамичных средах, устраняя как краткосрочные уязвимости, так и долгосрочные экзистенциальные риски по мере продвижения ИИ к ОИИ (общему искусственному интеллекту) и СИИ (сверхинтеллекту).

English

In this position paper, we address the persistent gap between rapidly growing AI capabilities and lagging safety progress. Existing paradigms divide into ``Make AI Safe'', which applies post-hoc alignment and guardrails but remains brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety but struggles to address unforeseen risks in open-ended environments. We therefore propose safe-by-coevolution as a new formulation of the ``Make Safe AI'' paradigm, inspired by biological immunity, in which safety becomes a dynamic, adversarial, and ongoing learning process. To operationalize this vision, we introduce R^2AI -- Resistant and Resilient AI -- as a practical framework that unites resistance against known threats with resilience to unforeseen risks. R^2AI integrates fast and slow safe models, adversarial simulation and verification through a safety wind tunnel, and continual feedback loops that guide safety and capability to coevolve. We argue that this framework offers a scalable and proactive path to maintain continual safety in dynamic environments, addressing both near-term vulnerabilities and long-term existential risks as AI advances toward AGI and ASI.

R^textbf{2AI}: На пути к устойчивому и адаптивному искусственному интеллекту в изменяющемся мире

R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

Аннотация

Support