BiasEdit : Débiaisage des modèles de langage stéréotypés via l'édition de modèles

papers.abstract

Les études précédentes ont établi que les modèles de langage manifestent des biais stéréotypés. Les stratégies existantes de réduction des biais, telles que le réentraînement d'un modèle avec des données contrefactuelles, la projection de représentations et l'utilisation d'invites, échouent souvent à éliminer efficacement les biais ou à modifier directement les représentations internes biaisées des modèles. Pour résoudre ces problèmes, nous proposons BiasEdit, une méthode efficace d'édition de modèles visant à supprimer les biais stéréotypés des modèles de langage grâce à des réseaux légers qui agissent comme des éditeurs pour générer des mises à jour de paramètres. BiasEdit utilise une fonction de perte de réduction des biais pour guider les réseaux éditeurs à effectuer des modifications locales sur une partie des paramètres d'un modèle de langage afin de réduire les biais, tout en préservant les capacités de modélisation du langage grâce à une fonction de perte de rétention. Les expériences sur StereoSet et Crows-Pairs démontrent l'efficacité, l'efficience et la robustesse de BiasEdit dans l'élimination des biais par rapport aux méthodes de référence tangentielles, avec un impact minimal voire nul sur les capacités générales des modèles de langage. De plus, nous effectuons un traçage des biais pour explorer leur présence dans divers modules et étudions les impacts de l'édition des biais sur différentes composantes des modèles de langage.

English

Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.

BiasEdit : Débiaisage des modèles de langage stéréotypés via l'édition de modèles

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

papers.abstract

Support