R^textbf{2AI} : Vers une IA résistante et résiliente dans un monde en évolution
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
papers.authors: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
papers.abstract
Dans ce document de position, nous abordons l'écart persistant entre les capacités croissantes de l'IA et les progrès limités en matière de sécurité. Les paradigmes existants se divisent en deux approches : « Rendre l'IA sûre », qui applique des mécanismes d'alignement et de contrôle a posteriori mais reste fragile et réactive, et « Créer une IA sûre », qui met l'accent sur la sécurité intrinsèque mais peine à gérer les risques imprévus dans des environnements ouverts. Nous proposons donc la sécurité par coévolution comme une nouvelle formulation du paradigme « Créer une IA sûre », inspirée par l'immunité biologique, où la sécurité devient un processus dynamique, antagoniste et d'apprentissage continu. Pour concrétiser cette vision, nous introduisons R²IA — IA Résistante et Résiliente — comme un cadre pratique qui unit la résistance aux menaces connues et la résilience face aux risques imprévus. R²IA intègre des modèles de sécurité rapides et lents, la simulation et la vérification adverses via un tunnel de sécurité, ainsi que des boucles de rétroaction continues qui guident la coévolution de la sécurité et des capacités. Nous soutenons que ce cadre offre une voie évolutive et proactive pour maintenir une sécurité continue dans des environnements dynamiques, en traitant à la fois les vulnérabilités à court terme et les risques existentiels à long terme, alors que l'IA progresse vers l'AGI et l'ASI.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.