ChatPaper.aiChatPaper

Frontier-KI-Risikomanagementrahmen in der Praxis: Ein technisches Risikoanalyse-Dokument v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

February 16, 2026
papers.authors: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI

papers.abstract

Um die beispiellosen Risiken zu verstehen und zu identifizieren, die von sich rapide weiterentwickelnden KI-Modellen ausgehen, bietet „Frontier AI Risk Management Framework in Practice“ eine umfassende Bewertung ihrer Frontier-Risiken. Angesichts der rasant fortschreitenden allgemeinen Fähigkeiten von Large Language Models (LLMs) und der Verbreitung agentenbasierter KI stellt diese Version des technischen Risikoanalyseberichts eine aktualisierte und detaillierte Bewertung von fünf kritischen Dimensionen vor: Cyber-Angriffe, Überzeugung und Manipulation, strategische Täuschung, unkontrollierte KI-Forschung und Selbstreplikation. Insbesondere führen wir komplexere Szenarien für Cyber-Angriffe ein. Für Überzeugung und Manipulation bewerten wir das Risiko der LLM-zu-LLM-Überzeugung bei neu veröffentlichten LLMs. Für strategische Täuschung und Scheming ergänzen wir ein neues Experiment zu emergentem Misalignment. Bei unkontrollierter KI-Forschung konzentrieren wir uns auf die „Fehlentwicklung“ von Agenten, wenn diese eigenständig ihre Speichersubstrate und Werkzeugsets erweitern. Daneben überwachen und bewerten wir auch die Sicherheitsleistung von OpenClaw während der Interaktion auf dem Moltbook. Für die Selbstreplikation führen wir ein neues ressourcenbeschränktes Szenario ein. Noch wichtiger ist, dass wir eine Reihe robuster Minderungsstrategien vorschlagen und validieren, um diesen neu entstehenden Bedrohungen zu begegnen, und damit einen vorläufigen technischen und umsetzbaren Weg für den sicheren Einsatz von Frontier-KI aufzeigen. Diese Arbeit spiegelt unser aktuelles Verständnis der KI-Frontier-Risiken wider und appelliert an gemeinsame Handlungen, um diese Herausforderungen zu bewältigen.
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.
PDF73February 21, 2026