Modelli Linguistici Backpack
Backpack Language Models
May 26, 2023
Autori: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI
Abstract
Presentiamo Backpacks: una nuova architettura neurale che combina prestazioni di modellazione robuste con un'interfaccia per l'interpretabilità e il controllo. I Backpacks apprendono molteplici vettori di senso non contestuali per ogni parola di un vocabolario e rappresentano una parola in una sequenza come una combinazione lineare non negativa e dipendente dal contesto di questi vettori di senso. Osserviamo che, dopo l'addestramento, i vettori di senso si specializzano, ciascuno codificando un aspetto diverso di una parola. Possiamo interpretare un vettore di senso ispezionando la sua proiezione (non contestuale e lineare) sullo spazio di output e intervenire su questi "ganci" interpretabili per modificare il comportamento del modello in modi prevedibili. Addestriamo un modello linguistico Backpack da 170 milioni di parametri su OpenWebText, ottenendo una perdita paragonabile a quella di un Transformer GPT-2 small (124 milioni di parametri). Nelle valutazioni di similarità lessicale, i vettori di senso dei Backpacks superano persino gli embedding di parole di un Transformer LM da 6 miliardi di parametri. Infine, presentiamo semplici algoritmi che intervengono sui vettori di senso per eseguire generazione di testo controllabile e riduzione dei bias. Ad esempio, possiamo modificare il vocabolario di senso per orientarlo maggiormente verso un argomento o localizzare una fonte di bias di genere in un vettore di senso e sopprimere globalmente quel senso.
English
We present Backpacks: a new neural architecture that marries strong modeling
performance with an interface for interpretability and control. Backpacks learn
multiple non-contextual sense vectors for each word in a vocabulary, and
represent a word in a sequence as a context-dependent, non-negative linear
combination of sense vectors in this sequence. We find that, after training,
sense vectors specialize, each encoding a different aspect of a word. We can
interpret a sense vector by inspecting its (non-contextual, linear) projection
onto the output space, and intervene on these interpretable hooks to change the
model's behavior in predictable ways. We train a 170M-parameter Backpack
language model on OpenWebText, matching the loss of a GPT-2 small
(124Mparameter) Transformer. On lexical similarity evaluations, we find that
Backpack sense vectors outperform even a 6B-parameter Transformer LM's word
embeddings. Finally, we present simple algorithms that intervene on sense
vectors to perform controllable text generation and debiasing. For example, we
can edit the sense vocabulary to tend more towards a topic, or localize a
source of gender bias to a sense vector and globally suppress that sense.