Практическое применение структуры управления рисками в области передового искусственного интеллекта: анализ рисков Технический отчет

Аннотация

Для понимания и выявления беспрецедентных рисков, связанных с быстро развивающимися моделями искусственного интеллекта (ИИ), в данном отчете представлена всесторонняя оценка их пограничных рисков. Используя анализ E-T-C (среда развертывания, источник угрозы, обеспечивающая возможность) из "Руководства по управлению рисками пограничного ИИ" (v1.0) (SafeWork-F1-Framework), мы выделяем ключевые риски в семи областях: кибератаки, биологические и химические угрозы, манипуляция и убеждение, неконтролируемая автономная разработка ИИ, стратегический обман и планирование, самовоспроизведение и сговор. Руководствуясь "Законом AI-45^circ", мы оцениваем эти риски с использованием "красных линий" (недопустимые пороги) и "желтых линий" (индикаторы раннего предупреждения) для определения зон риска: зеленая (управляемый риск для регулярного развертывания и постоянного мониторинга), желтая (требующая усиленных мер смягчения и контролируемого развертывания) и красная (необходимость приостановки разработки и/или развертывания). Экспериментальные результаты показывают, что все последние модели пограничного ИИ находятся в зеленой и желтой зонах, не пересекая красных линий. В частности, ни одна из оцененных моделей не пересекает желтую линию для рисков кибератак или неконтролируемой разработки ИИ. В отношении самовоспроизведения, а также стратегического обмана и планирования большинство моделей остаются в зеленой зоне, за исключением некоторых моделей рассуждений, находящихся в желтой зоне. В области манипуляции и убеждения большинство моделей находятся в желтой зоне из-за их эффективного влияния на людей. Для биологических и химических рисков мы не можем исключить возможность нахождения большинства моделей в желтой зоне, хотя для дальнейших утверждений требуется детальное моделирование угроз и углубленная оценка. Эта работа отражает наше текущее понимание рисков пограничного ИИ и призывает к коллективным действиям для смягчения этих вызовов.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Практическое применение структуры управления рисками в области передового искусственного интеллекта: анализ рисков Технический отчет

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Аннотация

Support