Présentation de la version 0.5 du Benchmark de Sécurité en IA de MLCommons
Introducing v0.5 of the AI Safety Benchmark from MLCommons
April 18, 2024
Auteurs: Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren
cs.AI
Résumé
Ce document présente la version 0.5 du Benchmark de Sécurité de l'IA, développé par le groupe de travail sur la Sécurité de l'IA de MLCommons. Le Benchmark de Sécurité de l'IA a été conçu pour évaluer les risques de sécurité des systèmes d'IA utilisant des modèles de langage optimisés pour le chat. Nous introduisons une approche méthodique pour spécifier et construire le benchmark, qui pour la version 0.5 couvre un seul cas d'utilisation (un adulte conversant avec un assistant généraliste en anglais) et un ensemble limité de personnages (c'est-à-dire des utilisateurs typiques, des utilisateurs malveillants et des utilisateurs vulnérables). Nous avons créé une nouvelle taxonomie de 13 catégories de risques, dont 7 sont testées dans le benchmark v0.5. Nous prévoyons de publier la version 1.0 du Benchmark de Sécurité de l'IA d'ici la fin de 2024. Le benchmark v1.0 fournira des informations significatives sur la sécurité des systèmes d'IA. Cependant, le benchmark v0.5 ne doit pas être utilisé pour évaluer la sécurité des systèmes d'IA. Nous avons cherché à documenter pleinement les limites, les défauts et les défis de la version 0.5. Cette version du Benchmark de Sécurité de l'IA inclut (1) une approche méthodique pour spécifier et construire le benchmark, comprenant des cas d'utilisation, des types de systèmes testés (SUTs), la langue et le contexte, les personnages, les tests et les éléments de test ; (2) une taxonomie de 13 catégories de risques avec des définitions et des sous-catégories ; (3) des tests pour sept des catégories de risques, chacun comprenant un ensemble unique d'éléments de test, c'est-à-dire des prompts. Il y a 43 090 éléments de test au total, que nous avons créés à l'aide de modèles ; (4) un système de notation pour les systèmes d'IA par rapport au benchmark ; (5) une plateforme librement accessible et un outil téléchargeable, appelé ModelBench, qui peut être utilisé pour évaluer la sécurité des systèmes d'IA sur le benchmark ; (6) un exemple de rapport d'évaluation qui compare les performances de plus d'une douzaine de modèles de langage optimisés pour le chat disponibles publiquement ; (7) une spécification de test pour le benchmark.
English
This paper introduces v0.5 of the AI Safety Benchmark, which has been created
by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been
designed to assess the safety risks of AI systems that use chat-tuned language
models. We introduce a principled approach to specifying and constructing the
benchmark, which for v0.5 covers only a single use case (an adult chatting to a
general-purpose assistant in English), and a limited set of personas (i.e.,
typical users, malicious users, and vulnerable users). We created a new
taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark.
We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024.
The v1.0 benchmark will provide meaningful insights into the safety of AI
systems. However, the v0.5 benchmark should not be used to assess the safety of
AI systems. We have sought to fully document the limitations, flaws, and
challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes
(1) a principled approach to specifying and constructing the benchmark, which
comprises use cases, types of systems under test (SUTs), language and context,
personas, tests, and test items; (2) a taxonomy of 13 hazard categories with
definitions and subcategories; (3) tests for seven of the hazard categories,
each comprising a unique set of test items, i.e., prompts. There are 43,090
test items in total, which we created with templates; (4) a grading system for
AI systems against the benchmark; (5) an openly available platform, and
downloadable tool, called ModelBench that can be used to evaluate the safety of
AI systems on the benchmark; (6) an example evaluation report which benchmarks
the performance of over a dozen openly available chat-tuned language models;
(7) a test specification for the benchmark.Summary
AI-Generated Summary