Um Framework para Medição Automatizada de Danos de IA Responsável em Aplicações de IA Generativa
A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
October 26, 2023
Autores: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
cs.AI
Resumo
Apresentamos um framework para a medição automatizada de métricas de IA responsável (RAI) para modelos de linguagem de grande escala (LLMs) e produtos e serviços associados. Nosso framework para medir automaticamente os danos causados por LLMs se baseia em conhecimentos técnicos e sociotécnicos existentes e aproveita as capacidades de LLMs de última geração, como o GPT-4. Utilizamos esse framework para conduzir vários estudos de caso que investigam como diferentes LLMs podem violar uma variedade de princípios relacionados à RAI. O framework pode ser empregado em conjunto com expertise sociotécnica específica de domínio para criar medições de novas áreas de dano no futuro. Ao implementar esse framework, nosso objetivo é permitir esforços mais avançados de medição de danos e promover o uso responsável de LLMs.
English
We present a framework for the automated measurement of responsible AI (RAI)
metrics for large language models (LLMs) and associated products and services.
Our framework for automatically measuring harms from LLMs builds on existing
technical and sociotechnical expertise and leverages the capabilities of
state-of-the-art LLMs, such as GPT-4. We use this framework to run through
several case studies investigating how different LLMs may violate a range of
RAI-related principles. The framework may be employed alongside domain-specific
sociotechnical expertise to create measurements for new harm areas in the
future. By implementing this framework, we aim to enable more advanced harm
measurement efforts and further the responsible use of LLMs.