R^textbf{2AI}: Naar resistente en veerkrachtige AI in een veranderende wereld
R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World
September 8, 2025
Auteurs: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI
Samenvatting
In dit position paper behandelen we de aanhoudende kloof tussen de snel groeiende AI-mogelijkheden en de achterblijvende vooruitgang op het gebied van veiligheid. Bestaande paradigma's zijn onder te verdelen in "Maak AI Veilig", waarbij achteraf afstemming en beveiligingsmaatregelen worden toegepast maar dat broos en reactief blijft, en "Maak Veilige AI", dat intrinsieke veiligheid benadrukt maar moeite heeft om onvoorziene risico's in open-ended omgevingen aan te pakken. Wij stellen daarom safe-by-coevolution voor als een nieuwe formulering van het "Maak Veilige AI"-paradigma, geïnspireerd door biologische immuniteit, waarbij veiligheid een dynamisch, adversarieel en voortdurend leerproces wordt. Om deze visie operationeel te maken, introduceren we R^2AI -- Resistant and Resilient AI -- als een praktisch raamwerk dat weerstand tegen bekende bedreigingen combineert met veerkracht tegen onvoorziene risico's. R^2AI integreert snelle en langzame veiligheidsmodellen, adversariële simulatie en verificatie via een veiligheidswindtunnel, en continue feedbacklussen die ervoor zorgen dat veiligheid en capaciteit samen evolueren. Wij beargumenteren dat dit raamwerk een schaalbare en proactieve aanpak biedt om voortdurende veiligheid te waarborgen in dynamische omgevingen, waarbij zowel kortetermijnkwetsbaarheden als langetermijnexistentiële risico's worden aangepakt naarmate AI evolueert naar AGI en ASI.
English
In this position paper, we address the persistent gap between rapidly growing
AI capabilities and lagging safety progress. Existing paradigms divide into
``Make AI Safe'', which applies post-hoc alignment and guardrails but remains
brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety
but struggles to address unforeseen risks in open-ended environments. We
therefore propose safe-by-coevolution as a new formulation of the
``Make Safe AI'' paradigm, inspired by biological immunity, in which safety
becomes a dynamic, adversarial, and ongoing learning process. To operationalize
this vision, we introduce R^2AI -- Resistant and Resilient
AI -- as a practical framework that unites resistance against known threats
with resilience to unforeseen risks. R^2AI integrates fast
and slow safe models, adversarial simulation and verification through a
safety wind tunnel, and continual feedback loops that guide safety and
capability to coevolve. We argue that this framework offers a scalable and
proactive path to maintain continual safety in dynamic environments, addressing
both near-term vulnerabilities and long-term existential risks as AI advances
toward AGI and ASI.