ChatPaper.aiChatPaper

Entpacken von beruflichen Vorurteilen: Fundiertes Entzerren von LLMs mit US-Arbeitsdaten

Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data

August 20, 2024
Autoren: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) neigen dazu, gesellschaftliche Voreingenommenheiten zu übernehmen und zu verstärken, die in ihren Trainingsdaten eingebettet sind, was potenziell schädliche Stereotypen in Bezug auf Geschlecht, Beruf und andere sensible Kategorien verstärken kann. Dieses Problem wird besonders problematisch, da voreingenommene LLMs weitreichende Konsequenzen haben können, die zu ungerechten Praktiken führen und soziale Ungleichheiten in verschiedenen Bereichen wie Personalbeschaffung, Online-Inhaltsmoderation oder sogar im Strafrecht verschärfen können. Obwohl frühere Forschungen darauf abzielten, Voreingenommenheiten in LLMs mithilfe spezialisierter Datensätze zur Betonung inhärenter Voreingenommenheiten zu erkennen, gab es eine bemerkenswerte mangelnde Untersuchung darüber, wie sich diese Erkenntnisse mit autoritativen Datensätzen wie denen des U.S. National Bureau of Labor Statistics (NBLS) korrelieren. Um diese Lücke zu schließen, führen wir empirische Forschungen durch, die LLMs in einem „Bias-aus-der-Box“-Szenario bewerten, indem wir analysieren, wie sich die generierten Ausgaben mit den in den NBLS-Daten gefundenen Verteilungen vergleichen lassen. Darüber hinaus schlagen wir einen einfachen, aber effektiven Entvoreingenommenheitsmechanismus vor, der direkt NBLS-Instanzen einbezieht, um Voreingenommenheiten in LLMs zu mildern. Unsere Studie umfasst sieben verschiedene LLMs, darunter instruierbare, Basis- und Mixture-of-Expert-Modelle, und zeigt signifikante Voreingenommenheitsniveaus auf, die von bestehenden Voreingenommenheitserkennungstechniken oft übersehen werden. Wichtig ist, dass unsere Entvoreingenommenheitsmethode, die nicht auf externen Datensätzen beruht, eine wesentliche Reduktion der Voreingenommenheitswerte aufzeigt und damit die Wirksamkeit unseres Ansatzes bei der Schaffung fairerer und zuverlässigerer LLMs unterstreicht.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal biases embedded within their training data, potentially reinforcing harmful stereotypes related to gender, occupation, and other sensitive categories. This issue becomes particularly problematic as biased LLMs can have far-reaching consequences, leading to unfair practices and exacerbating social inequalities across various domains, such as recruitment, online content moderation, or even the criminal justice system. Although prior research has focused on detecting bias in LLMs using specialized datasets designed to highlight intrinsic biases, there has been a notable lack of investigation into how these findings correlate with authoritative datasets, such as those from the U.S. National Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how the generated outputs compare with the distributions found in NBLS data. Furthermore, we propose a straightforward yet effective debiasing mechanism that directly incorporates NBLS instances to mitigate bias within LLMs. Our study spans seven different LLMs, including instructable, base, and mixture-of-expert models, and reveals significant levels of bias that are often overlooked by existing bias detection techniques. Importantly, our debiasing method, which does not rely on external datasets, demonstrates a substantial reduction in bias scores, highlighting the efficacy of our approach in creating fairer and more reliable LLMs.

Summary

AI-Generated Summary

PDF54November 16, 2024