Backpack Taalmodellen
Backpack Language Models
May 26, 2023
Auteurs: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI
Samenvatting
We presenteren Backpacks: een nieuwe neurale architectuur die sterke modelleerprestaties combineert met een interface voor interpreteerbaarheid en controle. Backpacks leren meerdere niet-contextuele betekenisvectoren voor elk woord in een vocabulaire, en representeren een woord in een reeks als een contextafhankelijke, niet-negatieve lineaire combinatie van betekenisvectoren in deze reeks. We ontdekken dat, na training, betekenisvectoren zich specialiseren, waarbij elke vector een ander aspect van een woord weergeeft. We kunnen een betekenisvector interpreteren door de (niet-contextuele, lineaire) projectie ervan op de uitvoerruimte te inspecteren, en ingrijpen op deze interpreteerbare haken om het gedrag van het model op voorspelbare manieren te veranderen. We trainen een Backpack-taalmodel met 170 miljoen parameters op OpenWebText, waarbij we de verlieswaarde van een GPT-2 small (124 miljoen parameters) Transformer evenaren. Bij evaluaties van lexicale gelijkenis blijkt dat Backpack-betekenisvectoren zelfs de woordembeddingen van een Transformer-taalmodel met 6 miljard parameters overtreffen. Tot slot presenteren we eenvoudige algoritmen die ingrijpen op betekenisvectoren om beheerbare tekstgeneratie en debiasing uit te voeren. Zo kunnen we de betekenisvocabulaire aanpassen om meer naar een bepaald onderwerp te neigen, of een bron van gendervooroordeel lokaliseren in een betekenisvector en die betekenis wereldwijd onderdrukken.
English
We present Backpacks: a new neural architecture that marries strong modeling
performance with an interface for interpretability and control. Backpacks learn
multiple non-contextual sense vectors for each word in a vocabulary, and
represent a word in a sequence as a context-dependent, non-negative linear
combination of sense vectors in this sequence. We find that, after training,
sense vectors specialize, each encoding a different aspect of a word. We can
interpret a sense vector by inspecting its (non-contextual, linear) projection
onto the output space, and intervene on these interpretable hooks to change the
model's behavior in predictable ways. We train a 170M-parameter Backpack
language model on OpenWebText, matching the loss of a GPT-2 small
(124Mparameter) Transformer. On lexical similarity evaluations, we find that
Backpack sense vectors outperform even a 6B-parameter Transformer LM's word
embeddings. Finally, we present simple algorithms that intervene on sense
vectors to perform controllable text generation and debiasing. For example, we
can edit the sense vocabulary to tend more towards a topic, or localize a
source of gender bias to a sense vector and globally suppress that sense.