ChatPaper.aiChatPaper

Rucksack-Sprachmodelle

Backpack Language Models

May 26, 2023
Autoren: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI

Zusammenfassung

Wir präsentieren Backpacks: eine neue neuronale Architektur, die starke Modellierungsleistung mit einer Schnittstelle für Interpretierbarkeit und Kontrolle verbindet. Backpacks lernen mehrere nicht-kontextuelle Sinnvektoren für jedes Wort in einem Vokabular und repräsentieren ein Wort in einer Sequenz als eine kontextabhängige, nicht-negative lineare Kombination von Sinnvektoren in dieser Sequenz. Wir stellen fest, dass sich die Sinnvektoren nach dem Training spezialisieren, wobei jeder einen anderen Aspekt eines Wortes kodiert. Wir können einen Sinnvektor interpretieren, indem wir seine (nicht-kontextuelle, lineare) Projektion auf den Ausgaberaum untersuchen, und in diese interpretierbaren Anknüpfungspunkte eingreifen, um das Verhalten des Modells auf vorhersehbare Weise zu ändern. Wir trainieren ein 170-Millionen-Parameter-Backpack-Sprachmodell auf OpenWebText, das den Verlust eines GPT-2-small-Transformers (124 Millionen Parameter) erreicht. Bei lexikalischen Ähnlichkeitsbewertungen stellen wir fest, dass die Sinnvektoren von Backpacks sogar die Wortembeddings eines 6-Milliarden-Parameter-Transformer-LMs übertreffen. Schließlich präsentieren wir einfache Algorithmen, die in Sinnvektoren eingreifen, um kontrollierte Textgenerierung und Entvoreingenommenheit durchzuführen. Zum Beispiel können wir das Sinnvokabular bearbeiten, um stärker auf ein Thema hinzutenden, oder eine Quelle von Geschlechterverzerrung auf einen Sinnvektor lokalisieren und diesen Sinn global unterdrücken.
English
We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.
PDF11December 15, 2024