ChatPaper.aiChatPaper

BiasEdit: 모델 편집을 통한 고정관념적 언어 모델 편향 제거

BiasEdit: Debiasing Stereotyped Language Models via Model Editing

March 11, 2025
저자: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
cs.AI

초록

기존 연구들은 언어 모델이 고정관념적 편향을 나타낸다는 것을 입증해 왔습니다. 반사실적 데이터를 사용한 모델 재학습, 표현 투영, 프롬프팅과 같은 기존의 편향 제거 전략들은 종종 편향을 효율적으로 제거하지 못하거나 모델의 편향된 내부 표현을 직접적으로 변경하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 경량 네트워크를 편집자로 활용하여 매개변수 업데이트를 생성함으로써 언어 모델의 고정관념적 편향을 제거하는 효율적인 모델 편집 방법인 BiasEdit을 제안합니다. BiasEdit은 편향 제거 손실을 사용하여 편집자 네트워크가 언어 모델의 일부 매개변수에 대해 지역적 편집을 수행하도록 유도하며, 편집 과정에서 언어 모델링 능력을 보존하기 위해 보존 손실을 활용합니다. StereoSet과 Crows-Pairs에서의 실험은 BiasEdit이 접선적 편향 제거 기준선과 비교하여 편향을 제거하는 데 있어 효과적이고 효율적이며 견고함을 보여주며, 언어 모델의 일반적인 능력에 거의 영향을 미치지 않음을 입증합니다. 또한, 우리는 다양한 모듈에서의 편향을 탐색하기 위해 편향 추적을 수행하고, 언어 모델의 다양한 구성 요소에 대한 편향 편집의 영향을 탐구합니다.
English
Previous studies have established that language models manifest stereotyped biases. Existing debiasing strategies, such as retraining a model with counterfactual data, representation projection, and prompting often fail to efficiently eliminate bias or directly alter the models' biased internal representations. To address these issues, we propose BiasEdit, an efficient model editing method to remove stereotypical bias from language models through lightweight networks that act as editors to generate parameter updates. BiasEdit employs a debiasing loss guiding editor networks to conduct local edits on partial parameters of a language model for debiasing while preserving the language modeling abilities during editing through a retention loss. Experiments on StereoSet and Crows-Pairs demonstrate the effectiveness, efficiency, and robustness of BiasEdit in eliminating bias compared to tangental debiasing baselines and little to no impact on the language models' general capabilities. In addition, we conduct bias tracing to probe bias in various modules and explore bias editing impacts on different components of language models.

Summary

AI-Generated Summary

PDF62March 12, 2025