Backpack Taalmodellen

Samenvatting

We presenteren Backpacks: een nieuwe neurale architectuur die sterke modelleerprestaties combineert met een interface voor interpreteerbaarheid en controle. Backpacks leren meerdere niet-contextuele betekenisvectoren voor elk woord in een vocabulaire, en representeren een woord in een reeks als een contextafhankelijke, niet-negatieve lineaire combinatie van betekenisvectoren in deze reeks. We ontdekken dat, na training, betekenisvectoren zich specialiseren, waarbij elke vector een ander aspect van een woord weergeeft. We kunnen een betekenisvector interpreteren door de (niet-contextuele, lineaire) projectie ervan op de uitvoerruimte te inspecteren, en ingrijpen op deze interpreteerbare haken om het gedrag van het model op voorspelbare manieren te veranderen. We trainen een Backpack-taalmodel met 170 miljoen parameters op OpenWebText, waarbij we de verlieswaarde van een GPT-2 small (124 miljoen parameters) Transformer evenaren. Bij evaluaties van lexicale gelijkenis blijkt dat Backpack-betekenisvectoren zelfs de woordembeddingen van een Transformer-taalmodel met 6 miljard parameters overtreffen. Tot slot presenteren we eenvoudige algoritmen die ingrijpen op betekenisvectoren om beheerbare tekstgeneratie en debiasing uit te voeren. Zo kunnen we de betekenisvocabulaire aanpassen om meer naar een bepaald onderwerp te neigen, of een bron van gendervooroordeel lokaliseren in een betekenisvector en die betekenis wereldwijd onderdrukken.

English

We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.

Backpack Taalmodellen

Backpack Language Models

Samenvatting

Support