Vers les meilleures pratiques en matière de sécurité et de gouvernance de l'IA générale : une enquête sur l'opinion des experts

Résumé

Plusieurs entreprises leaders en intelligence artificielle, dont OpenAI, Google DeepMind et Anthropic, ont pour objectif déclaré de développer une intelligence artificielle générale (IAG) - des systèmes d'IA qui atteignent ou dépassent les performances humaines sur un large éventail de tâches cognitives. En poursuivant cet objectif, elles pourraient développer et déployer des systèmes d'IA présentant des risques particulièrement importants. Bien qu'elles aient déjà pris certaines mesures pour atténuer ces risques, les meilleures pratiques n'ont pas encore émergé. Pour soutenir l'identification de ces meilleures pratiques, nous avons envoyé un sondage à 92 experts éminents issus de laboratoires d'IAG, du monde académique et de la société civile, et avons reçu 51 réponses. Les participants ont été interrogés sur leur degré d'accord avec 50 déclarations concernant ce que les laboratoires d'IAG devraient faire. Notre principal constat est que les participants, en moyenne, étaient d'accord avec toutes ces déclarations. Beaucoup d'entre elles ont reçu un niveau d'accord extrêmement élevé. Par exemple, 98 % des répondants étaient plutôt ou fortement d'accord pour dire que les laboratoires d'IAG devraient réaliser des évaluations des risques avant le déploiement, des évaluations des capacités dangereuses, des audits de modèles par des tiers, des restrictions de sécurité sur l'utilisation des modèles et des exercices de red teaming. En fin de compte, notre liste de déclarations pourrait servir de base utile aux efforts visant à développer des meilleures pratiques, des normes et des régulations pour les laboratoires d'IAG.

English

A number of leading AI companies, including OpenAI, Google DeepMind, and Anthropic, have the stated goal of building artificial general intelligence (AGI) - AI systems that achieve or exceed human performance across a wide range of cognitive tasks. In pursuing this goal, they may develop and deploy AI systems that pose particularly significant risks. While they have already taken some measures to mitigate these risks, best practices have not yet emerged. To support the identification of best practices, we sent a survey to 92 leading experts from AGI labs, academia, and civil society and received 51 responses. Participants were asked how much they agreed with 50 statements about what AGI labs should do. Our main finding is that participants, on average, agreed with all of them. Many statements received extremely high levels of agreement. For example, 98% of respondents somewhat or strongly agreed that AGI labs should conduct pre-deployment risk assessments, dangerous capabilities evaluations, third-party model audits, safety restrictions on model usage, and red teaming. Ultimately, our list of statements may serve as a helpful foundation for efforts to develop best practices, standards, and regulations for AGI labs.

Vers les meilleures pratiques en matière de sécurité et de gouvernance de l'IA générale : une enquête sur l'opinion des experts

Towards best practices in AGI safety and governance: A survey of expert opinion

Résumé

Support