Svelare i Pregiudizi Occupazionali: Debiasing Fondato dei Modelli Linguistici con Dati sul Lavoro Statunitensi
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Autori: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Abstract
I Large Language Model (LLM) sono inclini a ereditare e amplificare i pregiudizi sociali presenti nei loro dati di addestramento, rischiando di rafforzare stereotipi dannosi legati a genere, occupazione e altre categorie sensibili. Questo problema diventa particolarmente critico poiché LLM distorti possono avere conseguenze di vasta portata, portando a pratiche ingiuste e aggravando le disuguaglianze sociali in vari ambiti, come il reclutamento, la moderazione dei contenuti online o persino il sistema giudiziario penale. Sebbene ricerche precedenti si siano concentrate sull'individuazione dei pregiudizi negli LLM utilizzando dataset specializzati progettati per evidenziare i bias intrinseci, è stata osservata una notevole mancanza di indagini su come questi risultati si correlino con dataset autorevoli, come quelli del U.S. National Bureau of Labor Statistics (NBLS). Per colmare questa lacuna, conduciamo una ricerca empirica che valuta gli LLM in un contesto di "bias-out-of-the-box", analizzando come gli output generati si confrontino con le distribizioni presenti nei dati NBLS. Inoltre, proponiamo un meccanismo di debiasing semplice ma efficace che incorpora direttamente istanze NBLS per mitigare i pregiudizi all'interno degli LLM. Il nostro studio copre sette diversi LLM, inclusi modelli istruibili, di base e mixture-of-expert, e rivela livelli significativi di bias spesso trascurati dalle tecniche esistenti di rilevamento dei pregiudizi. È importante sottolineare che il nostro metodo di debiasing, che non si basa su dataset esterni, dimostra una sostanziale riduzione nei punteggi di bias, evidenziando l'efficacia del nostro approccio nel creare LLM più equi e affidabili.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.