R^textbf{2AI}: Verso un'Intelligenza Artificiale Resistente e Resiliente in un Mondo in Evoluzione
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
Autori: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
Abstract
In questo position paper, affrontiamo il persistente divario tra le capacità in rapida crescita dell'IA e i progressi ritardatari in materia di sicurezza. I paradigmi esistenti si dividono in "Rendere l'IA sicura", che applica allineamenti post-hoc e barriere protettive ma rimane fragile e reattivo, e "Creare IA sicura", che enfatizza la sicurezza intrinseca ma fatica a gestire rischi imprevisti in ambienti aperti. Proponiamo quindi la sicurezza-per-coevoluzione come una nuova formulazione del paradigma "Creare IA sicura", ispirata all'immunità biologica, in cui la sicurezza diventa un processo dinamico, avversariale e di apprendimento continuo. Per operazionalizzare questa visione, introduciamo R^2AI — IA Resistente e Resiliente — come un framework pratico che unisce la resistenza a minacce note con la resilienza a rischi imprevisti. R^2AI integra modelli di sicurezza veloci e lenti, simulazione e verifica avversariale attraverso un tunnel del vento per la sicurezza, e cicli di feedback continui che guidano la coevoluzione di sicurezza e capacità. Sosteniamo che questo framework offra un percorso scalabile e proattivo per mantenere una sicurezza continua in ambienti dinamici, affrontando sia vulnerabilità a breve termine che rischi esistenziali a lungo termine man mano che l'IA avanza verso AGI e ASI.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.