R^textbf{2AI}: Hacia una IA Resistente y Resiliente en un Mundo en Evolución

Resumen

En este documento de posición, abordamos la brecha persistente entre el rápido crecimiento de las capacidades de la IA y el progreso rezagado en seguridad. Los paradigmas existentes se dividen en "Hacer que la IA sea segura", que aplica alineación y salvaguardias a posteriori pero sigue siendo frágil y reactivo, y "Crear IA segura", que enfatiza la seguridad intrínseca pero lucha por abordar riesgos imprevistos en entornos abiertos. Por lo tanto, proponemos la seguridad por coevolución como una nueva formulación del paradigma "Crear IA segura", inspirada en la inmunidad biológica, donde la seguridad se convierte en un proceso dinámico, adversarial y de aprendizaje continuo. Para operacionalizar esta visión, presentamos R^2AI —IA Resistente y Resiliente— como un marco práctico que une la resistencia contra amenazas conocidas con la resiliencia ante riesgos imprevistos. R^2AI integra modelos de seguridad rápidos y lentos, simulación y verificación adversarial a través de un túnel de viento de seguridad, y bucles de retroalimentación continua que guían la coevolución de la seguridad y las capacidades. Argumentamos que este marco ofrece un camino escalable y proactivo para mantener la seguridad continua en entornos dinámicos, abordando tanto vulnerabilidades a corto plazo como riesgos existenciales a largo plazo a medida que la IA avanza hacia AGI y ASI.

English

In this position paper, we address the persistent gap between rapidly growing AI capabilities and lagging safety progress. Existing paradigms divide into ``Make AI Safe'', which applies post-hoc alignment and guardrails but remains brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety but struggles to address unforeseen risks in open-ended environments. We therefore propose safe-by-coevolution as a new formulation of the ``Make Safe AI'' paradigm, inspired by biological immunity, in which safety becomes a dynamic, adversarial, and ongoing learning process. To operationalize this vision, we introduce R^2AI -- Resistant and Resilient AI -- as a practical framework that unites resistance against known threats with resilience to unforeseen risks. R^2AI integrates fast and slow safe models, adversarial simulation and verification through a safety wind tunnel, and continual feedback loops that guide safety and capability to coevolve. We argue that this framework offers a scalable and proactive path to maintain continual safety in dynamic environments, addressing both near-term vulnerabilities and long-term existential risks as AI advances toward AGI and ASI.

R^textbf{2AI}: Hacia una IA Resistente y Resiliente en un Mundo en Evolución

R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

Resumen

Support