BiasEdit: Het debiassen van stereotiepe taalmodelen via modelbewerking

Samenvatting

Eerdere studies hebben aangetoond dat taalmodellen stereotypen en vooroordelen vertonen. Bestaande strategieën om vooroordelen te verminderen, zoals het opnieuw trainen van een model met tegenstrijdige gegevens, representatieprojectie en prompting, slagen er vaak niet in om vooroordelen efficiënt te elimineren of de bevooroordeelde interne representaties van de modellen direct te wijzigen. Om deze problemen aan te pakken, stellen we BiasEdit voor, een efficiënte methode voor modelbewerking om stereotypische vooroordelen uit taalmodellen te verwijderen door middel van lichtgewicht netwerken die fungeren als editors om parameterupdates te genereren. BiasEdit maakt gebruik van een verliesfunctie voor het verminderen van vooroordelen, die editor-netwerken begeleidt om lokale aanpassingen uit te voeren op een deel van de parameters van een taalmodel om vooroordelen te verminderen, terwijl de taalmodelleringsvaardigheden tijdens het bewerken behouden blijven door middel van een retentieverlies. Experimenten op StereoSet en Crows-Pairs demonstreren de effectiviteit, efficiëntie en robuustheid van BiasEdit in het elimineren van vooroordelen in vergelijking met tangentiële debiasing-baselines, met weinig tot geen impact op de algemene capaciteiten van de taalmodellen. Daarnaast voeren we bias tracing uit om vooroordelen in verschillende modules te onderzoeken en verkennen we de impact van biasbewerkingen op verschillende componenten van taalmodellen.

English

Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.

BiasEdit: Het debiassen van stereotiepe taalmodelen via modelbewerking

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

Samenvatting

Support