Desembalando Viés Ocupacional: Desenviando LLMs com Base em Dados Trabalhistas dos EUA
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Autores: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) são propensos a herdar e amplificar preconceitos sociais incorporados em seus dados de treinamento, potencialmente reforçando estereótipos prejudiciais relacionados a gênero, ocupação e outras categorias sensíveis. Esse problema se torna particularmente problemático, pois LLMs tendenciosos podem ter consequências de longo alcance, levando a práticas injustas e exacerbando desigualdades sociais em diversos domínios, como recrutamento, moderação de conteúdo online ou até mesmo no sistema de justiça criminal. Embora pesquisas anteriores tenham se concentrado em detectar viés em LLMs usando conjuntos de dados especializados projetados para destacar preconceitos intrínsecos, houve uma notável falta de investigação sobre como essas descobertas se correlacionam com conjuntos de dados autoritativos, como os do U.S. National Bureau of Labor Statistics (NBLS). Para abordar essa lacuna, realizamos uma pesquisa empírica que avalia LLMs em um cenário de "viés-saído-da-caixa", analisando como as saídas geradas se comparam com as distribuições encontradas nos dados do NBLS. Além disso, propomos um mecanismo de desviés direto e eficaz que incorpora diretamente instâncias do NBLS para mitigar o viés dentro dos LLMs. Nosso estudo abrange sete LLMs diferentes, incluindo modelos instrutíveis, base e mistura de especialistas, e revela níveis significativos de viés frequentemente ignorados pelas técnicas de detecção de viés existentes. Importante ressaltar que nosso método de desviés, que não depende de conjuntos de dados externos, demonstra uma redução substancial nos escores de viés, destacando a eficácia de nossa abordagem na criação de LLMs mais justos e confiáveis.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary