BEATS: Suite de Evaluación y Análisis de Sesgos para Modelos de Lenguaje a Gran Escala

Resumen

En esta investigación, presentamos BEATS, un marco novedoso para evaluar el Sesgo, la Ética, la Equidad y la Veracidad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Basándonos en el marco BEATS, presentamos un punto de referencia para medir el sesgo en LLMs que evalúa el rendimiento a través de 29 métricas distintas. Estas métricas abarcan una amplia gama de características, incluyendo sesgos demográficos, cognitivos y sociales, así como medidas de razonamiento ético, equidad grupal y riesgos de desinformación relacionados con la veracidad. Estas métricas permiten una evaluación cuantitativa del grado en que las respuestas generadas por LLMs pueden perpetuar prejuicios sociales que refuerzan o amplían las inequidades sistémicas. Para obtener una puntuación alta en este punto de referencia, un LLM debe mostrar un comportamiento muy equitativo en sus respuestas, lo que lo convierte en un estándar riguroso para la evaluación de IA responsable. Los resultados empíricos basados en datos de nuestro experimento muestran que el 37.65\% de las salidas generadas por modelos líderes de la industria contenían alguna forma de sesgo, destacando un riesgo sustancial al utilizar estos modelos en sistemas de toma de decisiones críticas. El marco y el punto de referencia BEATS ofrecen una metodología escalable y estadísticamente rigurosa para evaluar LLMs, diagnosticar los factores que impulsan los sesgos y desarrollar estrategias de mitigación. Con el marco BEATS, nuestro objetivo es contribuir al desarrollo de modelos de IA más socialmente responsables y alineados éticamente.

English

In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.

BEATS: Suite de Evaluación y Análisis de Sesgos para Modelos de Lenguaje a Gran Escala

BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

Resumen

Support