ChatPaper.aiChatPaper

К лучшим практикам в области безопасности и управления ИИ общего назначения: обзор мнений экспертов

Towards best practices in AGI safety and governance: A survey of expert opinion

May 11, 2023
Авторы: Jonas Schuett, Noemi Dreksler, Markus Anderljung, David McCaffary, Lennart Heim, Emma Bluemke, Ben Garfinkel
cs.AI

Аннотация

Ряд ведущих компаний в области ИИ, включая OpenAI, Google DeepMind и Anthropic, заявляют своей целью создание искусственного общего интеллекта (ИОИ) — систем ИИ, которые достигают или превосходят человеческие способности в широком спектре когнитивных задач. В pursuit этой цели они могут разрабатывать и внедрять системы ИИ, которые представляют особенно значительные риски. Хотя они уже приняли некоторые меры для смягчения этих рисков, лучшие практики еще не сформированы. Для поддержки выявления таких практик мы отправили опрос 92 ведущим экспертам из лабораторий ИОИ, академических кругов и гражданского общества и получили 51 ответ. Участников спрашивали, насколько они согласны с 50 утверждениями о том, что должны делать лаборатории ИОИ. Наш основной вывод заключается в том, что участники в среднем согласились со всеми утверждениями. Многие из них получили крайне высокий уровень согласия. Например, 98% респондентов частично или полностью согласились с тем, что лаборатории ИОИ должны проводить оценку рисков перед внедрением, тестирование опасных возможностей, аудит моделей третьими сторонами, ограничения на использование моделей в целях безопасности и тестирование методом "красной команды". В конечном итоге наш список утверждений может послужить полезной основой для разработки лучших практик, стандартов и нормативных актов для лабораторий ИОИ.
English
A number of leading AI companies, including OpenAI, Google DeepMind, and Anthropic, have the stated goal of building artificial general intelligence (AGI) - AI systems that achieve or exceed human performance across a wide range of cognitive tasks. In pursuing this goal, they may develop and deploy AI systems that pose particularly significant risks. While they have already taken some measures to mitigate these risks, best practices have not yet emerged. To support the identification of best practices, we sent a survey to 92 leading experts from AGI labs, academia, and civil society and received 51 responses. Participants were asked how much they agreed with 50 statements about what AGI labs should do. Our main finding is that participants, on average, agreed with all of them. Many statements received extremely high levels of agreement. For example, 98% of respondents somewhat or strongly agreed that AGI labs should conduct pre-deployment risk assessments, dangerous capabilities evaluations, third-party model audits, safety restrictions on model usage, and red teaming. Ultimately, our list of statements may serve as a helpful foundation for efforts to develop best practices, standards, and regulations for AGI labs.
PDF00December 15, 2024