R^textbf{2AI}: Naar resistente en veerkrachtige AI in een veranderende wereld

Samenvatting

In dit position paper behandelen we de aanhoudende kloof tussen de snel groeiende AI-mogelijkheden en de achterblijvende vooruitgang op het gebied van veiligheid. Bestaande paradigma's zijn onder te verdelen in "Maak AI Veilig", waarbij achteraf afstemming en beveiligingsmaatregelen worden toegepast maar dat broos en reactief blijft, en "Maak Veilige AI", dat intrinsieke veiligheid benadrukt maar moeite heeft om onvoorziene risico's in open-ended omgevingen aan te pakken. Wij stellen daarom safe-by-coevolution voor als een nieuwe formulering van het "Maak Veilige AI"-paradigma, geïnspireerd door biologische immuniteit, waarbij veiligheid een dynamisch, adversarieel en voortdurend leerproces wordt. Om deze visie operationeel te maken, introduceren we R^2AI -- Resistant and Resilient AI -- als een praktisch raamwerk dat weerstand tegen bekende bedreigingen combineert met veerkracht tegen onvoorziene risico's. R^2AI integreert snelle en langzame veiligheidsmodellen, adversariële simulatie en verificatie via een veiligheidswindtunnel, en continue feedbacklussen die ervoor zorgen dat veiligheid en capaciteit samen evolueren. Wij beargumenteren dat dit raamwerk een schaalbare en proactieve aanpak biedt om voortdurende veiligheid te waarborgen in dynamische omgevingen, waarbij zowel kortetermijnkwetsbaarheden als langetermijnexistentiële risico's worden aangepakt naarmate AI evolueert naar AGI en ASI.

English

In this position paper, we address the persistent gap between rapidly growing AI capabilities and lagging safety progress. Existing paradigms divide into ``Make AI Safe'', which applies post-hoc alignment and guardrails but remains brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety but struggles to address unforeseen risks in open-ended environments. We therefore propose safe-by-coevolution as a new formulation of the ``Make Safe AI'' paradigm, inspired by biological immunity, in which safety becomes a dynamic, adversarial, and ongoing learning process. To operationalize this vision, we introduce R^2AI -- Resistant and Resilient AI -- as a practical framework that unites resistance against known threats with resilience to unforeseen risks. R^2AI integrates fast and slow safe models, adversarial simulation and verification through a safety wind tunnel, and continual feedback loops that guide safety and capability to coevolve. We argue that this framework offers a scalable and proactive path to maintain continual safety in dynamic environments, addressing both near-term vulnerabilities and long-term existential risks as AI advances toward AGI and ASI.

R^textbf{2AI}: Naar resistente en veerkrachtige AI in een veranderende wereld

R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

Samenvatting

Support