Het Ontrafelen van Beroepsmatige Vooroordelen: Geaarde Debiasing van LLMs met Amerikaanse Arbeidsgegevens
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
Auteurs: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben de neiging om maatschappelijke vooroordelen die in hun trainingsdata zijn ingebed over te nemen en te versterken, wat mogelijk schadelijke stereotypen met betrekking tot gender, beroep en andere gevoelige categorieën kan versterken. Dit probleem wordt bijzonder zorgwekkend omdat bevooroordeelde LLMs verstrekkende gevolgen kunnen hebben, wat kan leiden tot oneerlijke praktijken en sociale ongelijkheden kan verergeren in verschillende domeinen, zoals werving, moderatie van online content, of zelfs het strafrechtelijk systeem. Hoewel eerder onderzoek zich heeft gericht op het detecteren van vooroordelen in LLMs met behulp van gespecialiseerde datasets die ontworpen zijn om intrinsieke vooroordelen te benadrukken, is er een opvallend gebrek aan onderzoek geweest naar hoe deze bevindingen correleren met gezaghebbende datasets, zoals die van het U.S. National Bureau of Labor Statistics (NBLS). Om deze kloof te dichten, voeren we empirisch onderzoek uit dat LLMs evalueert in een "bias-out-of-the-box" setting, waarbij we analyseren hoe de gegenereerde uitkomsten zich verhouden tot de verdelingen die in NBLS-data worden gevonden. Bovendien stellen we een eenvoudig maar effectief mechanisme voor om vooroordelen te verminderen, dat direct NBLS-instanties incorporeert om vooroordelen binnen LLMs te mitigeren. Onze studie omvat zeven verschillende LLMs, waaronder instructable, base en mixture-of-expert modellen, en onthult aanzienlijke niveaus van vooroordelen die vaak over het hoofd worden gezien door bestaande technieken voor biasdetectie. Belangrijk is dat onze methode om vooroordelen te verminderen, die niet afhankelijk is van externe datasets, een aanzienlijke vermindering van bias-scores laat zien, wat de effectiviteit van onze aanpak benadrukt bij het creëren van eerlijkere en betrouwbaardere LLMs.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary