Modèles de Langage à Sac à Dos
Backpack Language Models
May 26, 2023
Auteurs: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI
Résumé
Nous présentons Backpacks : une nouvelle architecture neuronale qui allie des performances de modélisation élevées à une interface pour l'interprétabilité et le contrôle. Les Backpacks apprennent plusieurs vecteurs de sens non contextuels pour chaque mot d'un vocabulaire, et représentent un mot dans une séquence comme une combinaison linéaire non négative et dépendante du contexte de ces vecteurs de sens. Nous constatons qu'après l'entraînement, les vecteurs de sens se spécialisent, chacun encodant un aspect différent d'un mot. Nous pouvons interpréter un vecteur de sens en examinant sa projection (non contextuelle et linéaire) sur l'espace de sortie, et intervenir sur ces points d'interprétabilité pour modifier le comportement du modèle de manière prévisible. Nous avons entraîné un modèle de langage Backpack de 170 millions de paramètres sur OpenWebText, atteignant une performance similaire à celle d'un petit Transformer GPT-2 (124 millions de paramètres). Sur des évaluations de similarité lexicale, nous observons que les vecteurs de sens des Backpacks surpassent même les embeddings de mots d'un Transformer LM de 6 milliards de paramètres. Enfin, nous présentons des algorithmes simples qui interviennent sur les vecteurs de sens pour réaliser une génération de texte contrôlée et une réduction des biais. Par exemple, nous pouvons modifier le vocabulaire de sens pour tendre davantage vers un sujet, ou localiser une source de biais de genre dans un vecteur de sens et supprimer globalement ce sens.
English
We present Backpacks: a new neural architecture that marries strong modeling
performance with an interface for interpretability and control. Backpacks learn
multiple non-contextual sense vectors for each word in a vocabulary, and
represent a word in a sequence as a context-dependent, non-negative linear
combination of sense vectors in this sequence. We find that, after training,
sense vectors specialize, each encoding a different aspect of a word. We can
interpret a sense vector by inspecting its (non-contextual, linear) projection
onto the output space, and intervene on these interpretable hooks to change the
model's behavior in predictable ways. We train a 170M-parameter Backpack
language model on OpenWebText, matching the loss of a GPT-2 small
(124Mparameter) Transformer. On lexical similarity evaluations, we find that
Backpack sense vectors outperform even a 6B-parameter Transformer LM's word
embeddings. Finally, we present simple algorithms that intervene on sense
vectors to perform controllable text generation and debiasing. For example, we
can edit the sense vocabulary to tend more towards a topic, or localize a
source of gender bias to a sense vector and globally suppress that sense.