Desempaquetando el Sesgo Ocupacional: Desprejuiciando LLMs con Datos Laborales de EE. UU.
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Autores: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) son propensos a heredar y amplificar sesgos sociales incrustados en sus datos de entrenamiento, potencialmente reforzando estereotipos dañinos relacionados con género, ocupación y otras categorías sensibles. Este problema se vuelve particularmente problemático, ya que los LLMs sesgados pueden tener consecuencias de gran alcance, llevando a prácticas injustas y exacerbando las desigualdades sociales en diversos ámbitos, como contratación, moderación de contenido en línea o incluso en el sistema de justicia penal. Aunque investigaciones previas se han centrado en detectar sesgos en LLMs utilizando conjuntos de datos especializados diseñados para resaltar sesgos intrínsecos, ha habido una notable falta de investigación sobre cómo estos hallazgos se correlacionan con conjuntos de datos autorizados, como los del Buró Nacional de Estadísticas Laborales de EE. UU. (NBLS). Para abordar esta brecha, llevamos a cabo una investigación empírica que evalúa LLMs en un entorno de "sesgo-sin-modificación", analizando cómo las salidas generadas se comparan con las distribuciones encontradas en los datos del NBLS. Además, proponemos un mecanismo de des sesgo sencillo pero efectivo que incorpora directamente instancias del NBLS para mitigar el sesgo dentro de los LLMs. Nuestro estudio abarca siete LLMs diferentes, incluidos modelos instructables, base y de mezcla de expertos, y revela niveles significativos de sesgo que a menudo son pasados por alto por las técnicas existentes de detección de sesgos. Es importante destacar que nuestro método de des sesgo, que no depende de conjuntos de datos externos, demuestra una reducción sustancial en los puntajes de sesgo, resaltando la eficacia de nuestro enfoque en la creación de LLMs más justos y confiables.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary