LEACE: Perfecte lineaire conceptverwijdering in gesloten vorm

Samenvatting

Concept erasure heeft als doel om specifieke kenmerken uit een representatie te verwijderen. Het kan worden gebruikt om eerlijkheid te verbeteren (bijvoorbeeld door te voorkomen dat een classifier geslacht of ras gebruikt) en interpreteerbaarheid (bijvoorbeeld door een concept te verwijderen om veranderingen in modelgedrag te observeren). In dit artikel introduceren we LEAst-squares Concept Erasure (LEACE), een gesloten-vorm methode die bewezen voorkomt dat alle lineaire classifiers een concept detecteren, terwijl de minst mogelijke schade aan de representatie wordt toegebracht. We passen LEACE toe op grote taalmiddelen met een nieuwe procedure genaamd "concept scrubbing," die informatie over het doelconcept uit elke laag in het netwerk wist. We demonstreren de bruikbaarheid van onze methode op twee taken: het meten van de afhankelijkheid van taalmiddelen van woordsoortinformatie, en het verminderen van gendervooroordelen in BERT-embeddings. Code is beschikbaar op https://github.com/EleutherAI/concept-erasure.

English

Concept erasure aims to remove specified features from a representation. It can be used to improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). In this paper, we introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while inflicting the least possible damage to the representation. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate the usefulness of our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.

LEACE: Perfecte lineaire conceptverwijdering in gesloten vorm

LEACE: Perfect linear concept erasure in closed form

Samenvatting

Support