Um Framework para Medição Automatizada de Danos de IA Responsável em Aplicações de IA Generativa

Resumo

Apresentamos um framework para a medição automatizada de métricas de IA responsável (RAI) para modelos de linguagem de grande escala (LLMs) e produtos e serviços associados. Nosso framework para medir automaticamente os danos causados por LLMs se baseia em conhecimentos técnicos e sociotécnicos existentes e aproveita as capacidades de LLMs de última geração, como o GPT-4. Utilizamos esse framework para conduzir vários estudos de caso que investigam como diferentes LLMs podem violar uma variedade de princípios relacionados à RAI. O framework pode ser empregado em conjunto com expertise sociotécnica específica de domínio para criar medições de novas áreas de dano no futuro. Ao implementar esse framework, nosso objetivo é permitir esforços mais avançados de medição de danos e promover o uso responsável de LLMs.

English

We present a framework for the automated measurement of responsible AI (RAI) metrics for large language models (LLMs) and associated products and services. Our framework for automatically measuring harms from LLMs builds on existing technical and sociotechnical expertise and leverages the capabilities of state-of-the-art LLMs, such as GPT-4. We use this framework to run through several case studies investigating how different LLMs may violate a range of RAI-related principles. The framework may be employed alongside domain-specific sociotechnical expertise to create measurements for new harm areas in the future. By implementing this framework, we aim to enable more advanced harm measurement efforts and further the responsible use of LLMs.

Um Framework para Medição Automatizada de Danos de IA Responsável em Aplicações de IA Generativa

A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

Resumo

Support