BiasEdit: Desviesando Modelos de Linguagem Estereotipados por meio de Edição de Modelos

Resumo

Estudos anteriores estabeleceram que modelos de linguagem manifestam vieses estereotipados. Estratégias existentes de mitigação de viés, como retreinar um modelo com dados contrafactuais, projeção de representação e prompting, frequentemente falham em eliminar o viés de forma eficiente ou alterar diretamente as representações internas tendenciosas dos modelos. Para abordar essas questões, propomos o BiasEdit, um método eficiente de edição de modelos para remover vieses estereotipados de modelos de linguagem por meio de redes leves que atuam como editores para gerar atualizações de parâmetros. O BiasEdit emprega uma função de perda de mitigação de viés que orienta as redes editoras a realizar edições locais em parâmetros parciais de um modelo de linguagem para mitigar o viés, enquanto preserva as habilidades de modelagem de linguagem durante a edição por meio de uma função de perda de retenção. Experimentos no StereoSet e no Crows-Pairs demonstram a eficácia, eficiência e robustez do BiasEdit na eliminação de viés em comparação com baselines tangenciais de mitigação de viés, com pouco ou nenhum impacto nas capacidades gerais dos modelos de linguagem. Além disso, realizamos rastreamento de viés para investigar o viés em vários módulos e explorar os impactos da edição de viés em diferentes componentes dos modelos de linguagem.

English

Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.

BiasEdit: Desviesando Modelos de Linguagem Estereotipados por meio de Edição de Modelos

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

Resumo

Support