BiasEdit: Desviesando Modelos de Linguagem Estereotipados por meio de Edição de Modelos
BiasEdit: Debiasing Stereotyped Language Models via Model Editing
March 11, 2025
Autores: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
cs.AI
Resumo
Estudos anteriores estabeleceram que modelos de linguagem manifestam vieses estereotipados. Estratégias existentes de mitigação de viés, como retreinar um modelo com dados contrafactuais, projeção de representação e prompting, frequentemente falham em eliminar o viés de forma eficiente ou alterar diretamente as representações internas tendenciosas dos modelos. Para abordar essas questões, propomos o BiasEdit, um método eficiente de edição de modelos para remover vieses estereotipados de modelos de linguagem por meio de redes leves que atuam como editores para gerar atualizações de parâmetros. O BiasEdit emprega uma função de perda de mitigação de viés que orienta as redes editoras a realizar edições locais em parâmetros parciais de um modelo de linguagem para mitigar o viés, enquanto preserva as habilidades de modelagem de linguagem durante a edição por meio de uma função de perda de retenção. Experimentos no StereoSet e no Crows-Pairs demonstram a eficácia, eficiência e robustez do BiasEdit na eliminação de viés em comparação com baselines tangenciais de mitigação de viés, com pouco ou nenhum impacto nas capacidades gerais dos modelos de linguagem. Além disso, realizamos rastreamento de viés para investigar o viés em vários módulos e explorar os impactos da edição de viés em diferentes componentes dos modelos de linguagem.
English
Previous studies have established that language models manifest stereotyped
biases. Existing debiasing strategies, such as retraining a model with
counterfactual data, representation projection, and prompting often fail to
efficiently eliminate bias or directly alter the models' biased internal
representations. To address these issues, we propose BiasEdit, an efficient
model editing method to remove stereotypical bias from language models through
lightweight networks that act as editors to generate parameter updates.
BiasEdit employs a debiasing loss guiding editor networks to conduct local
edits on partial parameters of a language model for debiasing while preserving
the language modeling abilities during editing through a retention loss.
Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness,
efficiency, and robustness of BiasEdit in eliminating bias compared to
tangental debiasing baselines and little to no impact on the language models'
general capabilities. In addition, we conduct bias tracing to probe bias in
various modules and explore bias editing impacts on different components of
language models.Summary
AI-Generated Summary