Фреймворк для автоматизированной оценки вреда от ответственного использования ИИ в генеративных приложениях искусственного интеллекта
A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
October 26, 2023
Авторы: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
cs.AI
Аннотация
Мы представляем фреймворк для автоматизированного измерения метрик ответственного ИИ (RAI) для больших языковых моделей (LLM) и связанных с ними продуктов и услуг. Наш фреймворк для автоматического измерения вреда, причиняемого LLM, основывается на существующих технических и социотехнических знаниях и использует возможности современных LLM, таких как GPT-4. Мы применяем этот фреймворк в нескольких кейс-стадиях, исследующих, как различные LLM могут нарушать ряд принципов, связанных с RAI. Фреймворк может использоваться вместе с предметной социотехнической экспертизой для создания измерений новых областей вреда в будущем. Реализуя этот фреймворк, мы стремимся обеспечить более продвинутые методы измерения вреда и способствовать ответственному использованию LLM.
English
We present a framework for the automated measurement of responsible AI (RAI)
metrics for large language models (LLMs) and associated products and services.
Our framework for automatically measuring harms from LLMs builds on existing
technical and sociotechnical expertise and leverages the capabilities of
state-of-the-art LLMs, such as GPT-4. We use this framework to run through
several case studies investigating how different LLMs may violate a range of
RAI-related principles. The framework may be employed alongside domain-specific
sociotechnical expertise to create measurements for new harm areas in the
future. By implementing this framework, we aim to enable more advanced harm
measurement efforts and further the responsible use of LLMs.