R^textbf{2AI}: 변화하는 세상에서 저항력과 회복력을 갖춘 AI를 향하여
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
저자: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
초록
이 포지션 페이퍼에서 우리는 빠르게 성장하는 AI 역량과 뒤처지는 안전성 진보 사이의 지속적인 격차를 다룹니다. 기존 패러다임은 사후 정렬과 안전 장치를 적용하지만 여전히 취약하고 반응적인 "AI를 안전하게 만들기(Make AI Safe)"와 본질적 안전성을 강조하지만 개방형 환경에서 예상치 못한 위험을 다루기 어려운 "안전한 AI 만들기(Make Safe AI)"로 나뉩니다. 따라서 우리는 생물학적 면역 체계에서 영감을 받아 안전성을 동적이고 적대적이며 지속적인 학습 과정으로 만드는 "안전한 AI 만들기" 패러다임의 새로운 공식화인 공진화에 의한 안전성(safe-by-coevolution)을 제안합니다. 이 비전을 실현하기 위해, 우리는 알려진 위협에 대한 저항성과 예상치 못한 위험에 대한 회복력을 통합한 실용적 프레임워크인 R^2AI(Resistant and Resilient AI)를 소개합니다. R^2AI는 빠르고 느린 안전 모델, 안전성 풍동을 통한 적대적 시뮬레이션 및 검증, 그리고 안전성과 역량이 공진화하도록 이끄는 지속적인 피드백 루프를 통합합니다. 우리는 이 프레임워크가 동적 환경에서 지속적인 안전성을 유지하기 위한 확장 가능하고 선제적인 경로를 제공하며, AI가 AGI와 ASI로 나아가면서 단기적 취약성과 장기적 실존적 위험을 모두 해결할 수 있다고 주장합니다.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.