BiasEdit : Débiaisage des modèles de langage stéréotypés via l'édition de modèles
BiasEdit: Debiasing Stereotyped Language Models via Model Editing
March 11, 2025
Auteurs: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
cs.AI
Résumé
Les études précédentes ont établi que les modèles de langage manifestent des biais stéréotypés. Les stratégies existantes de réduction des biais, telles que le réentraînement d'un modèle avec des données contrefactuelles, la projection de représentations et l'utilisation d'invites, échouent souvent à éliminer efficacement les biais ou à modifier directement les représentations internes biaisées des modèles. Pour résoudre ces problèmes, nous proposons BiasEdit, une méthode efficace d'édition de modèles visant à supprimer les biais stéréotypés des modèles de langage grâce à des réseaux légers qui agissent comme des éditeurs pour générer des mises à jour de paramètres. BiasEdit utilise une fonction de perte de réduction des biais pour guider les réseaux éditeurs à effectuer des modifications locales sur une partie des paramètres d'un modèle de langage afin de réduire les biais, tout en préservant les capacités de modélisation du langage grâce à une fonction de perte de rétention. Les expériences sur StereoSet et Crows-Pairs démontrent l'efficacité, l'efficience et la robustesse de BiasEdit dans l'élimination des biais par rapport aux méthodes de référence tangentielles, avec un impact minimal voire nul sur les capacités générales des modèles de langage. De plus, nous effectuons un traçage des biais pour explorer leur présence dans divers modules et étudions les impacts de l'édition des biais sur différentes composantes des modèles de langage.
English
Previous studies have established that language models manifest stereotyped
biases. Existing debiasing strategies, such as retraining a model with
counterfactual data, representation projection, and prompting often fail to
efficiently eliminate bias or directly alter the models' biased internal
representations. To address these issues, we propose BiasEdit, an efficient
model editing method to remove stereotypical bias from language models through
lightweight networks that act as editors to generate parameter updates.
BiasEdit employs a debiasing loss guiding editor networks to conduct local
edits on partial parameters of a language model for debiasing while preserving
the language modeling abilities during editing through a retention loss.
Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness,
efficiency, and robustness of BiasEdit in eliminating bias compared to
tangental debiasing baselines and little to no impact on the language models'
general capabilities. In addition, we conduct bias tracing to probe bias in
various modules and explore bias editing impacts on different components of
language models.Summary
AI-Generated Summary