BiasEdit: Het debiassen van stereotiepe taalmodelen via modelbewerking
BiasEdit: Debiasing Stereotyped Language Models via Model Editing
March 11, 2025
Auteurs: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
cs.AI
Samenvatting
Eerdere studies hebben aangetoond dat taalmodellen stereotypen en vooroordelen vertonen. Bestaande strategieën om vooroordelen te verminderen, zoals het opnieuw trainen van een model met tegenstrijdige gegevens, representatieprojectie en prompting, slagen er vaak niet in om vooroordelen efficiënt te elimineren of de bevooroordeelde interne representaties van de modellen direct te wijzigen. Om deze problemen aan te pakken, stellen we BiasEdit voor, een efficiënte methode voor modelbewerking om stereotypische vooroordelen uit taalmodellen te verwijderen door middel van lichtgewicht netwerken die fungeren als editors om parameterupdates te genereren. BiasEdit maakt gebruik van een verliesfunctie voor het verminderen van vooroordelen, die editor-netwerken begeleidt om lokale aanpassingen uit te voeren op een deel van de parameters van een taalmodel om vooroordelen te verminderen, terwijl de taalmodelleringsvaardigheden tijdens het bewerken behouden blijven door middel van een retentieverlies. Experimenten op StereoSet en Crows-Pairs demonstreren de effectiviteit, efficiëntie en robuustheid van BiasEdit in het elimineren van vooroordelen in vergelijking met tangentiële debiasing-baselines, met weinig tot geen impact op de algemene capaciteiten van de taalmodellen. Daarnaast voeren we bias tracing uit om vooroordelen in verschillende modules te onderzoeken en verkennen we de impact van biasbewerkingen op verschillende componenten van taalmodellen.
English
Previous studies have established that language models manifest stereotyped
biases. Existing debiasing strategies, such as retraining a model with
counterfactual data, representation projection, and prompting often fail to
efficiently eliminate bias or directly alter the models' biased internal
representations. To address these issues, we propose BiasEdit, an efficient
model editing method to remove stereotypical bias from language models through
lightweight networks that act as editors to generate parameter updates.
BiasEdit employs a debiasing loss guiding editor networks to conduct local
edits on partial parameters of a language model for debiasing while preserving
the language modeling abilities during editing through a retention loss.
Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness,
efficiency, and robustness of BiasEdit in eliminating bias compared to
tangental debiasing baselines and little to no impact on the language models'
general capabilities. In addition, we conduct bias tracing to probe bias in
various modules and explore bias editing impacts on different components of
language models.Summary
AI-Generated Summary