Verso le migliori pratiche in materia di sicurezza e governance dell'AGI: un'indagine sulle opinioni degli esperti
Towards best practices in AGI safety and governance: A survey of expert opinion
May 11, 2023
Autori: Jonas Schuett, Noemi Dreksler, Markus Anderljung, David McCaffary, Lennart Heim, Emma Bluemke, Ben Garfinkel
cs.AI
Abstract
Diverse aziende leader nel campo dell'intelligenza artificiale, tra cui OpenAI, Google DeepMind e Anthropic, hanno dichiarato come obiettivo la creazione di un'intelligenza artificiale generale (AGI) - sistemi di IA che raggiungano o superino le prestazioni umane in un'ampia gamma di compiti cognitivi. Nel perseguire questo obiettivo, potrebbero sviluppare e implementare sistemi di IA che presentano rischi particolarmente significativi. Sebbene abbiano già adottato alcune misure per mitigare questi rischi, le migliori pratiche non sono ancora emerse. Per supportare l'identificazione di tali pratiche, abbiamo inviato un sondaggio a 92 esperti di spicco provenienti da laboratori AGI, accademia e società civile, ricevendo 51 risposte. Ai partecipanti è stato chiesto di esprimere il loro grado di accordo con 50 affermazioni su ciò che i laboratori AGI dovrebbero fare. La nostra principale scoperta è che i partecipanti, in media, hanno concordato con tutte le affermazioni. Molte di esse hanno ricevuto livelli di accordo estremamente elevati. Ad esempio, il 98% dei rispondenti ha dichiarato di essere parzialmente o fortemente d'accordo sul fatto che i laboratori AGI dovrebbero condurre valutazioni del rischio pre-distribuzione, valutazioni delle capacità pericolose, audit di modelli da parte di terzi, restrizioni di sicurezza sull'uso dei modelli e attività di red teaming. In definitiva, la nostra lista di affermazioni potrebbe servire come una base utile per gli sforzi volti a sviluppare migliori pratiche, standard e regolamenti per i laboratori AGI.
English
A number of leading AI companies, including OpenAI, Google DeepMind, and
Anthropic, have the stated goal of building artificial general intelligence
(AGI) - AI systems that achieve or exceed human performance across a wide range
of cognitive tasks. In pursuing this goal, they may develop and deploy AI
systems that pose particularly significant risks. While they have already taken
some measures to mitigate these risks, best practices have not yet emerged. To
support the identification of best practices, we sent a survey to 92 leading
experts from AGI labs, academia, and civil society and received 51 responses.
Participants were asked how much they agreed with 50 statements about what AGI
labs should do. Our main finding is that participants, on average, agreed with
all of them. Many statements received extremely high levels of agreement. For
example, 98% of respondents somewhat or strongly agreed that AGI labs should
conduct pre-deployment risk assessments, dangerous capabilities evaluations,
third-party model audits, safety restrictions on model usage, and red teaming.
Ultimately, our list of statements may serve as a helpful foundation for
efforts to develop best practices, standards, and regulations for AGI labs.