ChatPaper.aiChatPaper

Практическое применение системы управления рисками передового ИИ: Технический отчет по анализу рисков версия 1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

February 16, 2026
Авторы: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI

Аннотация

Для понимания и идентификации беспрецедентных рисков, создаваемых быстро развивающимися моделями искусственного интеллекта (ИИ), в практическом руководстве по управлению рисками фронтирного ИИ представлена комплексная оценка их фронтирных рисков. По мере стремительной эволюции общих возможностей больших языковых моделей (БЯМ) и распространения агентного ИИ, данная версия технического отчета по анализу рисков представляет обновленную и детализированную оценку пяти критически важных аспектов: кибератаки, убеждение и манипуляция, стратегический обман, неконтролируемые НИОКР в области ИИ и самовоспроизведение. В частности, мы вводим более сложные сценарии для кибератак. Для убеждения и манипуляции мы оцениваем риск убеждения типа «БЯМ-для-БЯМ» на недавно выпущенных моделях. Для стратегического обмана и построения схем мы добавляем новый эксперимент, касающийся возникающего несоответствия. В отношении неконтролируемых НИОКР в области ИИ мы фокусируемся на «неправильной эволюции» агентов по мере их автономного расширения субстратов памяти и наборов инструментов. Кроме того, мы также отслеживаем и оцениваем показатели безопасности OpenClaw во время взаимодействия на Moltbook. Для самовоспроизведения мы вводим новый сценарий с ограниченными ресурсами. Что более важно, мы предлагаем и проверяем ряд надежных стратегий смягчения последствий для противодействия этим новым угрозам, предоставляя предварительный технический и практический путь для безопасного развертывания фронтирного ИИ. Эта работа отражает наше текущее понимание фронтирных рисков ИИ и призывает к коллективным действиям для смягчения этих вызовов.
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.
PDF73February 21, 2026