R^textbf{2AI}: Hacia una IA Resistente y Resiliente en un Mundo en Evolución
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
Autores: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
Resumen
En este documento de posición, abordamos la brecha persistente entre el rápido crecimiento de las capacidades de la IA y el progreso rezagado en seguridad. Los paradigmas existentes se dividen en "Hacer que la IA sea segura", que aplica alineación y salvaguardias a posteriori pero sigue siendo frágil y reactivo, y "Crear IA segura", que enfatiza la seguridad intrínseca pero lucha por abordar riesgos imprevistos en entornos abiertos. Por lo tanto, proponemos la seguridad por coevolución como una nueva formulación del paradigma "Crear IA segura", inspirada en la inmunidad biológica, donde la seguridad se convierte en un proceso dinámico, adversarial y de aprendizaje continuo. Para operacionalizar esta visión, presentamos R^2AI —IA Resistente y Resiliente— como un marco práctico que une la resistencia contra amenazas conocidas con la resiliencia ante riesgos imprevistos. R^2AI integra modelos de seguridad rápidos y lentos, simulación y verificación adversarial a través de un túnel de viento de seguridad, y bucles de retroalimentación continua que guían la coevolución de la seguridad y las capacidades. Argumentamos que este marco ofrece un camino escalable y proactivo para mantener la seguridad continua en entornos dinámicos, abordando tanto vulnerabilidades a corto plazo como riesgos existenciales a largo plazo a medida que la IA avanza hacia AGI y ASI.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.