LEACE: Perfecte lineaire conceptverwijdering in gesloten vorm
LEACE: Perfect linear concept erasure in closed form
June 6, 2023
Auteurs: Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman
cs.AI
Samenvatting
Concept erasure heeft als doel om specifieke kenmerken uit een representatie te verwijderen. Het kan worden gebruikt om eerlijkheid te verbeteren (bijvoorbeeld door te voorkomen dat een classifier geslacht of ras gebruikt) en interpreteerbaarheid (bijvoorbeeld door een concept te verwijderen om veranderingen in modelgedrag te observeren). In dit artikel introduceren we LEAst-squares Concept Erasure (LEACE), een gesloten-vorm methode die bewezen voorkomt dat alle lineaire classifiers een concept detecteren, terwijl de minst mogelijke schade aan de representatie wordt toegebracht. We passen LEACE toe op grote taalmiddelen met een nieuwe procedure genaamd "concept scrubbing," die informatie over het doelconcept uit elke laag in het netwerk wist. We demonstreren de bruikbaarheid van onze methode op twee taken: het meten van de afhankelijkheid van taalmiddelen van woordsoortinformatie, en het verminderen van gendervooroordelen in BERT-embeddings. Code is beschikbaar op https://github.com/EleutherAI/concept-erasure.
English
Concept erasure aims to remove specified features from a representation. It
can be used to improve fairness (e.g. preventing a classifier from using gender
or race) and interpretability (e.g. removing a concept to observe changes in
model behavior). In this paper, we introduce LEAst-squares Concept Erasure
(LEACE), a closed-form method which provably prevents all linear classifiers
from detecting a concept while inflicting the least possible damage to the
representation. We apply LEACE to large language models with a novel procedure
called "concept scrubbing," which erases target concept information from every
layer in the network. We demonstrate the usefulness of our method on two tasks:
measuring the reliance of language models on part-of-speech information, and
reducing gender bias in BERT embeddings. Code is available at
https://github.com/EleutherAI/concept-erasure.