Naar beste praktijken in AGI-veiligheid en governance: Een overzicht van expertopinies
Towards best practices in AGI safety and governance: A survey of expert opinion
May 11, 2023
Auteurs: Jonas Schuett, Noemi Dreksler, Markus Anderljung, David McCaffary, Lennart Heim, Emma Bluemke, Ben Garfinkel
cs.AI
Samenvatting
Een aantal vooraanstaande AI-bedrijven, waaronder OpenAI, Google DeepMind en Anthropic, hebben als expliciet doel het ontwikkelen van kunstmatige algemene intelligentie (AGI) - AI-systemen die menselijke prestaties op een breed scala aan cognitieve taken evenaren of overtreffen. Bij het nastreven van dit doel kunnen zij AI-systemen ontwikkelen en inzetten die bijzonder grote risico's met zich meebrengen. Hoewel zij al enkele maatregelen hebben genomen om deze risico's te beperken, zijn er nog geen best practices ontstaan. Om de identificatie van best practices te ondersteunen, hebben we een enquête gestuurd naar 92 toonaangevende experts van AGI-labs, academische instellingen en maatschappelijke organisaties, waarop we 51 reacties ontvingen. Deelnemers werd gevraagd in hoeverre zij het eens waren met 50 stellingen over wat AGI-labs zouden moeten doen. Onze belangrijkste bevinding is dat de deelnemers gemiddeld genomen met alle stellingen akkoord gingen. Veel stellingen kregen extreem hoge niveaus van instemming. Zo was 98% van de respondenten het enigszins of sterk eens met de stelling dat AGI-labs risicobeoordelingen vóór inzet, evaluaties van gevaarlijke capaciteiten, audits van modellen door derden, veiligheidsbeperkingen op modelgebruik en red teaming zouden moeten uitvoeren. Uiteindelijk kan onze lijst met stellingen dienen als een nuttige basis voor inspanningen om best practices, standaarden en regelgeving voor AGI-labs te ontwikkelen.
English
A number of leading AI companies, including OpenAI, Google DeepMind, and
Anthropic, have the stated goal of building artificial general intelligence
(AGI) - AI systems that achieve or exceed human performance across a wide range
of cognitive tasks. In pursuing this goal, they may develop and deploy AI
systems that pose particularly significant risks. While they have already taken
some measures to mitigate these risks, best practices have not yet emerged. To
support the identification of best practices, we sent a survey to 92 leading
experts from AGI labs, academia, and civil society and received 51 responses.
Participants were asked how much they agreed with 50 statements about what AGI
labs should do. Our main finding is that participants, on average, agreed with
all of them. Many statements received extremely high levels of agreement. For
example, 98% of respondents somewhat or strongly agreed that AGI labs should
conduct pre-deployment risk assessments, dangerous capabilities evaluations,
third-party model audits, safety restrictions on model usage, and red teaming.
Ultimately, our list of statements may serve as a helpful foundation for
efforts to develop best practices, standards, and regulations for AGI labs.