ChatPaper.aiChatPaper

R^textbf{2AI}: Auf dem Weg zu widerstandsfähiger und resilienter KI in einer sich wandelnden Welt

R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

September 8, 2025
papers.authors: Youbang Sun, Xiang Wang, Jie Fu, Chaochao Lu, Bowen Zhou
cs.AI

papers.abstract

In diesem Positionspapier gehen wir auf die anhaltende Kluft zwischen den rasant wachsenden KI-Fähigkeiten und dem zurückbleibenden Fortschritt in der Sicherheit ein. Bestehende Paradigmen teilen sich in „KI sicher machen“, das nachträgliche Ausrichtung und Schutzmaßnahmen anwendet, aber spröde und reaktiv bleibt, und „Sichere KI schaffen“, das intrinsische Sicherheit betont, jedoch Schwierigkeiten hat, unvorhergesehene Risiken in offenen Umgebungen zu adressieren. Wir schlagen daher Safe-by-Coevolution als eine neue Formulierung des „Sichere KI schaffen“-Paradigmas vor, inspiriert von der biologischen Immunität, bei der Sicherheit zu einem dynamischen, adversarischen und kontinuierlichen Lernprozess wird. Um diese Vision zu operationalisieren, führen wir R^2AI – Resistant and Resilient AI – als praktischen Rahmen ein, der Widerstandsfähigkeit gegen bekannte Bedrohungen mit Resilienz gegenüber unvorhergesehenen Risiken vereint. R^2AI integriert schnelle und langsame Sicherheitsmodelle, adversarische Simulation und Verifikation durch einen Sicherheits-Windkanal sowie kontinuierliche Feedback-Schleifen, die Sicherheit und Fähigkeiten dazu anregen, sich gemeinsam weiterzuentwickeln. Wir argumentieren, dass dieser Rahmen einen skalierbaren und proaktiven Weg bietet, um kontinuierliche Sicherheit in dynamischen Umgebungen aufrechtzuerhalten, sowohl kurzfristige Schwachstellen als auch langfristige existenzielle Risiken zu adressieren, während die KI sich in Richtung AGI und ASI weiterentwickelt.
English
In this position paper, we address the persistent gap between rapidly growing AI capabilities and lagging safety progress. Existing paradigms divide into ``Make AI Safe'', which applies post-hoc alignment and guardrails but remains brittle and reactive, and ``Make Safe AI'', which emphasizes intrinsic safety but struggles to address unforeseen risks in open-ended environments. We therefore propose safe-by-coevolution as a new formulation of the ``Make Safe AI'' paradigm, inspired by biological immunity, in which safety becomes a dynamic, adversarial, and ongoing learning process. To operationalize this vision, we introduce R^2AI -- Resistant and Resilient AI -- as a practical framework that unites resistance against known threats with resilience to unforeseen risks. R^2AI integrates fast and slow safe models, adversarial simulation and verification through a safety wind tunnel, and continual feedback loops that guide safety and capability to coevolve. We argue that this framework offers a scalable and proactive path to maintain continual safety in dynamic environments, addressing both near-term vulnerabilities and long-term existential risks as AI advances toward AGI and ASI.
PDF32September 9, 2025