ChatPaper.aiChatPaper

Un Marco para la Medición Automatizada de Daños en IA Responsable en Aplicaciones de IA Generativa

A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

October 26, 2023
Autores: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
cs.AI

Resumen

Presentamos un marco para la medición automatizada de métricas de IA responsable (RAI) en modelos de lenguaje grandes (LLMs) y en los productos y servicios asociados. Nuestro marco para medir automáticamente los daños causados por LLMs se basa en conocimientos técnicos y sociotécnicos existentes y aprovecha las capacidades de LLMs de última generación, como GPT-4. Utilizamos este marco para analizar varios estudios de caso que investigan cómo diferentes LLMs pueden violar una variedad de principios relacionados con la RAI. Este marco puede emplearse junto con experiencia sociotécnica específica del dominio para crear mediciones en nuevas áreas de daño en el futuro. Al implementar este marco, nuestro objetivo es permitir esfuerzos más avanzados en la medición de daños y fomentar el uso responsable de los LLMs.
English
We present a framework for the automated measurement of responsible AI (RAI) metrics for large language models (LLMs) and associated products and services. Our framework for automatically measuring harms from LLMs builds on existing technical and sociotechnical expertise and leverages the capabilities of state-of-the-art LLMs, such as GPT-4. We use this framework to run through several case studies investigating how different LLMs may violate a range of RAI-related principles. The framework may be employed alongside domain-specific sociotechnical expertise to create measurements for new harm areas in the future. By implementing this framework, we aim to enable more advanced harm measurement efforts and further the responsible use of LLMs.
PDF91December 15, 2024