R^textbf{2AI}: Rumo a uma IA Resistente e Resiliente em um Mundo em Evolução
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
Autores: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
Resumo
Neste artigo de posicionamento, abordamos a lacuna persistente entre as capacidades de IA em rápido crescimento e o progresso lento em segurança. Os paradigmas existentes se dividem em "Tornar a IA Segura", que aplica alinhamento e salvaguardas post-hoc, mas permanece frágil e reativo, e "Criar IA Segura", que enfatiza a segurança intrínseca, mas luta para lidar com riscos imprevistos em ambientes abertos. Propomos, portanto, a segurança por coevolução como uma nova formulação do paradigma "Criar IA Segura", inspirada na imunidade biológica, na qual a segurança se torna um processo dinâmico, adversarial e contínuo de aprendizado. Para operacionalizar essa visão, introduzimos R^2AI -- IA Resistente e Resiliente -- como um framework prático que une resistência a ameaças conhecidas com resiliência a riscos imprevistos. O R^2AI integra modelos de segurança rápidos e lentos, simulação e verificação adversarial por meio de um túnel de vento de segurança, e loops de feedback contínuos que orientam a segurança e a capacidade a coevoluir. Argumentamos que esse framework oferece um caminho escalável e proativo para manter a segurança contínua em ambientes dinâmicos, abordando tanto vulnerabilidades de curto prazo quanto riscos existenciais de longo prazo, à medida que a IA avança em direção à AGI e ASI.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.