Déballage des biais professionnels : Débiaisage ancré des LLM avec des données sur le travail aux États-Unis

papers.abstract

Les grands modèles de langage (LLM) sont susceptibles d'hériter et d'amplifier les biais sociétaux intégrés dans leurs données d'entraînement, renforçant potentiellement des stéréotypes préjudiciables liés au genre, à l'occupation et à d'autres catégories sensibles. Ce problème devient particulièrement problématique car des LLM biaisés peuvent avoir des conséquences étendues, conduisant à des pratiques injustes et exacerbant les inégalités sociales dans divers domaines, tels que le recrutement, la modération de contenu en ligne, voire le système de justice pénale. Bien que des recherches antérieures se soient concentrées sur la détection de biais dans les LLM en utilisant des ensembles de données spécialisés conçus pour mettre en évidence les biais intrinsèques, il y a eu un manque notable d'investigation sur la corrélation de ces résultats avec des ensembles de données de référence, tels que ceux du Bureau national des statistiques du travail des États-Unis (NBLS). Pour combler cette lacune, nous menons des recherches empiriques qui évaluent les LLM dans un cadre de "biais dès la sortie", analysant comment les résultats générés se comparent aux distributions trouvées dans les données du NBLS. De plus, nous proposons un mécanisme de débiaisage simple mais efficace qui intègre directement les instances du NBLS pour atténuer les biais au sein des LLM. Notre étude couvre sept LLM différents, y compris des modèles instructables, de base et de mélange d'experts, et révèle des niveaux significatifs de biais souvent négligés par les techniques de détection de biais existantes. Importamment, notre méthode de débiaisage, qui ne dépend pas d'ensembles de données externes, démontre une réduction substantielle des scores de biais, mettant en évidence l'efficacité de notre approche dans la création de LLM plus justes et fiables.

English

Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs can have far-reaching consequences, leading to unfair practices and exacerbating social inequalities across various domains, such as recruitment, online content moderation, or even the criminal justice system. Although prior research has focused on detecting bias in LLMs using specialized datasets designed to highlight intrinsic biases, there has been a notable lack of investigation into how these findings correlate with authoritative datasets, such as those from the U.S. National Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how the generated outputs compare with the distributions found in NBLS data. Furthermore, we propose a straightforward yet effective debiasing mechanism that directly incorporates NBLS instances to mitigate bias within LLMs. Our study spans seven different LLMs, including instructable, base, and mixture-of-expert models, and reveals significant levels of bias that are often overlooked by existing bias detection techniques. Importantly, our debiasing method, which does not rely on external datasets, demonstrates a substantial reduction in bias scores, highlighting the efficacy of our approach in creating fairer and more reliable LLMs.

Déballage des biais professionnels : Débiaisage ancré des LLM avec des données sur le travail aux États-Unis

Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data

papers.abstract

Support