ChatPaper.aiChatPaper

BiasEdit: Debiasing dei Modelli Linguistici Stereotipati tramite Modifica del Modello

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

March 11, 2025
Autori: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
cs.AI

Abstract

Studi precedenti hanno stabilito che i modelli linguistici manifestano pregiudizi stereotipati. Le strategie esistenti per ridurre i pregiudizi, come il riaddestramento di un modello con dati controfattuali, la proiezione delle rappresentazioni e il prompting, spesso non riescono a eliminare i pregiudizi in modo efficiente o a modificare direttamente le rappresentazioni interne distorte dei modelli. Per affrontare questi problemi, proponiamo BiasEdit, un metodo efficiente di modifica del modello per rimuovere i pregiudizi stereotipati dai modelli linguistici attraverso reti leggere che agiscono come editor per generare aggiornamenti dei parametri. BiasEdit utilizza una funzione di perdita per la riduzione dei pregiudizi che guida le reti editoriali a eseguire modifiche locali su una parte dei parametri di un modello linguistico per ridurre i pregiudizi, preservando al contempo le capacità di modellazione linguistica durante la modifica attraverso una funzione di perdita di conservazione. Esperimenti su StereoSet e Crows-Pairs dimostrano l'efficacia, l'efficienza e la robustezza di BiasEdit nell'eliminare i pregiudizi rispetto ai metodi di riduzione dei pregiudizi tangenziali, con un impatto minimo o nullo sulle capacità generali dei modelli linguistici. Inoltre, conduciamo una tracciatura dei pregiudizi per esplorare i pregiudizi in vari moduli e analizzare gli impatti della modifica dei pregiudizi su diverse componenti dei modelli linguistici.
English
Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.
PDF72March 12, 2025