Déballage des biais professionnels : Débiaisage ancré des LLM avec des données sur le travail aux États-Unis
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Auteurs: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Résumé
Les grands modèles de langage (LLM) sont susceptibles d'hériter et d'amplifier les biais sociétaux intégrés dans leurs données d'entraînement, renforçant potentiellement des stéréotypes préjudiciables liés au genre, à l'occupation et à d'autres catégories sensibles. Ce problème devient particulièrement problématique car des LLM biaisés peuvent avoir des conséquences étendues, conduisant à des pratiques injustes et exacerbant les inégalités sociales dans divers domaines, tels que le recrutement, la modération de contenu en ligne, voire le système de justice pénale. Bien que des recherches antérieures se soient concentrées sur la détection de biais dans les LLM en utilisant des ensembles de données spécialisés conçus pour mettre en évidence les biais intrinsèques, il y a eu un manque notable d'investigation sur la corrélation de ces résultats avec des ensembles de données de référence, tels que ceux du Bureau national des statistiques du travail des États-Unis (NBLS). Pour combler cette lacune, nous menons des recherches empiriques qui évaluent les LLM dans un cadre de "biais dès la sortie", analysant comment les résultats générés se comparent aux distributions trouvées dans les données du NBLS. De plus, nous proposons un mécanisme de débiaisage simple mais efficace qui intègre directement les instances du NBLS pour atténuer les biais au sein des LLM. Notre étude couvre sept LLM différents, y compris des modèles instructables, de base et de mélange d'experts, et révèle des niveaux significatifs de biais souvent négligés par les techniques de détection de biais existantes. Importamment, notre méthode de débiaisage, qui ne dépend pas d'ensembles de données externes, démontre une réduction substantielle des scores de biais, mettant en évidence l'efficacité de notre approche dans la création de LLM plus justes et fiables.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary