Naar beste praktijken in AGI-veiligheid en governance: Een overzicht van expertopinies

Samenvatting

Een aantal vooraanstaande AI-bedrijven, waaronder OpenAI, Google DeepMind en Anthropic, hebben als expliciet doel het ontwikkelen van kunstmatige algemene intelligentie (AGI) - AI-systemen die menselijke prestaties op een breed scala aan cognitieve taken evenaren of overtreffen. Bij het nastreven van dit doel kunnen zij AI-systemen ontwikkelen en inzetten die bijzonder grote risico's met zich meebrengen. Hoewel zij al enkele maatregelen hebben genomen om deze risico's te beperken, zijn er nog geen best practices ontstaan. Om de identificatie van best practices te ondersteunen, hebben we een enquête gestuurd naar 92 toonaangevende experts van AGI-labs, academische instellingen en maatschappelijke organisaties, waarop we 51 reacties ontvingen. Deelnemers werd gevraagd in hoeverre zij het eens waren met 50 stellingen over wat AGI-labs zouden moeten doen. Onze belangrijkste bevinding is dat de deelnemers gemiddeld genomen met alle stellingen akkoord gingen. Veel stellingen kregen extreem hoge niveaus van instemming. Zo was 98% van de respondenten het enigszins of sterk eens met de stelling dat AGI-labs risicobeoordelingen vóór inzet, evaluaties van gevaarlijke capaciteiten, audits van modellen door derden, veiligheidsbeperkingen op modelgebruik en red teaming zouden moeten uitvoeren. Uiteindelijk kan onze lijst met stellingen dienen als een nuttige basis voor inspanningen om best practices, standaarden en regelgeving voor AGI-labs te ontwikkelen.

English

A number of leading AI companies, including OpenAI, Google DeepMind, and Anthropic, have the stated goal of building artificial general intelligence (AGI) - AI systems that achieve or exceed human performance across a wide range of cognitive tasks. In pursuing this goal, they may develop and deploy AI systems that pose particularly significant risks. While they have already taken some measures to mitigate these risks, best practices have not yet emerged. To support the identification of best practices, we sent a survey to 92 leading experts from AGI labs, academia, and civil society and received 51 responses. Participants were asked how much they agreed with 50 statements about what AGI labs should do. Our main finding is that participants, on average, agreed with all of them. Many statements received extremely high levels of agreement. For example, 98% of respondents somewhat or strongly agreed that AGI labs should conduct pre-deployment risk assessments, dangerous capabilities evaluations, third-party model audits, safety restrictions on model usage, and red teaming. Ultimately, our list of statements may serve as a helpful foundation for efforts to develop best practices, standards, and regulations for AGI labs.

Naar beste praktijken in AGI-veiligheid en governance: Een overzicht van expertopinies

Towards best practices in AGI safety and governance: A survey of expert opinion

Samenvatting

Support