LEACE: Идеальное линейное удаление концепций в замкнутой форме

Аннотация

Удаление концепций направлено на устранение заданных признаков из представления. Этот подход может быть использован для повышения справедливости (например, предотвращения использования классификатором информации о поле или расе) и интерпретируемости (например, удаления концепции для наблюдения изменений в поведении модели). В данной статье мы представляем метод LEAst-squares Concept Erasure (LEACE), который в замкнутой форме гарантированно предотвращает обнаружение концепции всеми линейными классификаторами, нанося при этом минимальный ущерб представлению. Мы применяем LEACE к большим языковым моделям с помощью новой процедуры, называемой "очистка концепций", которая удаляет информацию о целевой концепции из каждого слоя сети. Мы демонстрируем полезность нашего метода на двух задачах: измерение зависимости языковых моделей от информации о частях речи и снижение гендерной предвзятости в эмбеддингах BERT. Код доступен по адресу https://github.com/EleutherAI/concept-erasure.

English

Concept erasure aims to remove specified features from a representation. It can be used to improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). In this paper, we introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while inflicting the least possible damage to the representation. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate the usefulness of our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.

LEACE: Идеальное линейное удаление концепций в замкнутой форме

LEACE: Perfect linear concept erasure in closed form

Аннотация

Support