Ein Rahmenwerk zur automatisierten Messung verantwortungsbewusster KI-Schäden in generativen KI-Anwendungen
A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
October 26, 2023
papers.authors: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
cs.AI
papers.abstract
Wir präsentieren ein Framework zur automatisierten Messung von Responsible AI (RAI)-Metriken für große Sprachmodelle (LLMs) sowie damit verbundene Produkte und Dienstleistungen. Unser Framework zur automatischen Messung von Schäden durch LLMs baut auf bestehendem technischem und soziotechnischem Fachwissen auf und nutzt die Fähigkeiten modernster LLMs wie GPT-4. Wir verwenden dieses Framework, um mehrere Fallstudien durchzuführen, die untersuchen, wie verschiedene LLMs eine Reihe von RAI-bezogenen Prinzipien verletzen können. Das Framework kann in Verbindung mit domänenspezifischem soziotechnischem Fachwissen eingesetzt werden, um zukünftig Messungen für neue Schadensbereiche zu erstellen. Durch die Implementierung dieses Frameworks streben wir an, fortgeschrittenere Bemühungen zur Schadensmessung zu ermöglichen und die verantwortungsvolle Nutzung von LLMs weiter voranzutreiben.
English
We present a framework for the automated measurement of responsible AI (RAI)
metrics for large language models (LLMs) and associated products and services.
Our framework for automatically measuring harms from LLMs builds on existing
technical and sociotechnical expertise and leverages the capabilities of
state-of-the-art LLMs, such as GPT-4. We use this framework to run through
several case studies investigating how different LLMs may violate a range of
RAI-related principles. The framework may be employed alongside domain-specific
sociotechnical expertise to create measurements for new harm areas in the
future. By implementing this framework, we aim to enable more advanced harm
measurement efforts and further the responsible use of LLMs.