ChatPaper.aiChatPaper

MLCommons의 AI 안전성 벤치마크 v0.5 소개

Introducing v0.5 of the AI Safety Benchmark from MLCommons

April 18, 2024
저자: Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren
cs.AI

초록

본 논문은 MLCommons AI Safety Working Group에서 개발한 AI Safety Benchmark v0.5를 소개합니다. AI Safety Benchmark는 채팅 최적화 언어 모델을 사용하는 AI 시스템의 안전 위험을 평가하기 위해 설계되었습니다. v0.5 버전은 단일 사용 사례(영어로 일반 목적의 어시스턴트와 대화하는 성인)와 제한된 페르소나(일반 사용자, 악의적 사용자, 취약한 사용자)를 다룹니다. 우리는 13개의 위험 범주로 구성된 새로운 분류 체계를 개발했으며, 이 중 7개 범주에 대한 테스트가 v0.5 벤치마크에 포함되어 있습니다. 2024년 말까지 AI Safety Benchmark 버전 1.0을 출시할 계획이며, 이 버전은 AI 시스템의 안전성에 대한 의미 있는 통찰을 제공할 것입니다. 그러나 v0.5 벤치마크는 AI 시스템의 안전성을 평가하는 데 사용되어서는 안 됩니다. 우리는 v0.5의 한계, 결함 및 과제를 충분히 문서화하려고 노력했습니다. 이번 v0.5 출시에는 다음이 포함됩니다: (1) 사용 사례, 테스트 대상 시스템 유형(SUTs), 언어 및 컨텍스트, 페르소나, 테스트 및 테스트 항목으로 구성된 벤치마크의 명세 및 구축을 위한 원칙적 접근법; (2) 정의와 하위 범주를 포함한 13개 위험 범주의 분류 체계; (3) 각각 고유한 테스트 항목(프롬프트)으로 구성된 7개 위험 범주에 대한 테스트. 템플릿을 사용해 총 43,090개의 테스트 항목을 생성했습니다; (4) 벤치마크에 대한 AI 시스템의 등급 평가 시스템; (5) 벤치마크에서 AI 시스템의 안전성을 평가하는 데 사용할 수 있는 공개 플랫폼 및 다운로드 가능한 도구인 ModelBench; (6) 공개적으로 이용 가능한 10여 개의 채팅 최적화 언어 모델의 성능을 벤치마킹한 예시 평가 보고서; (7) 벤치마크를 위한 테스트 명세.
English
This paper introduces v0.5 of the AI Safety Benchmark, which has been created by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been designed to assess the safety risks of AI systems that use chat-tuned language models. We introduce a principled approach to specifying and constructing the benchmark, which for v0.5 covers only a single use case (an adult chatting to a general-purpose assistant in English), and a limited set of personas (i.e., typical users, malicious users, and vulnerable users). We created a new taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark. We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024. The v1.0 benchmark will provide meaningful insights into the safety of AI systems. However, the v0.5 benchmark should not be used to assess the safety of AI systems. We have sought to fully document the limitations, flaws, and challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes (1) a principled approach to specifying and constructing the benchmark, which comprises use cases, types of systems under test (SUTs), language and context, personas, tests, and test items; (2) a taxonomy of 13 hazard categories with definitions and subcategories; (3) tests for seven of the hazard categories, each comprising a unique set of test items, i.e., prompts. There are 43,090 test items in total, which we created with templates; (4) a grading system for AI systems against the benchmark; (5) an openly available platform, and downloadable tool, called ModelBench that can be used to evaluate the safety of AI systems on the benchmark; (6) an example evaluation report which benchmarks the performance of over a dozen openly available chat-tuned language models; (7) a test specification for the benchmark.

Summary

AI-Generated Summary

PDF111December 15, 2024