Modèles de Langage à Sac à Dos

Résumé

Nous présentons Backpacks : une nouvelle architecture neuronale qui allie des performances de modélisation élevées à une interface pour l'interprétabilité et le contrôle. Les Backpacks apprennent plusieurs vecteurs de sens non contextuels pour chaque mot d'un vocabulaire, et représentent un mot dans une séquence comme une combinaison linéaire non négative et dépendante du contexte de ces vecteurs de sens. Nous constatons qu'après l'entraînement, les vecteurs de sens se spécialisent, chacun encodant un aspect différent d'un mot. Nous pouvons interpréter un vecteur de sens en examinant sa projection (non contextuelle et linéaire) sur l'espace de sortie, et intervenir sur ces points d'interprétabilité pour modifier le comportement du modèle de manière prévisible. Nous avons entraîné un modèle de langage Backpack de 170 millions de paramètres sur OpenWebText, atteignant une performance similaire à celle d'un petit Transformer GPT-2 (124 millions de paramètres). Sur des évaluations de similarité lexicale, nous observons que les vecteurs de sens des Backpacks surpassent même les embeddings de mots d'un Transformer LM de 6 milliards de paramètres. Enfin, nous présentons des algorithmes simples qui interviennent sur les vecteurs de sens pour réaliser une génération de texte contrôlée et une réduction des biais. Par exemple, nous pouvons modifier le vocabulaire de sens pour tendre davantage vers un sujet, ou localiser une source de biais de genre dans un vecteur de sens et supprimer globalement ce sens.

English

We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.

Modèles de Langage à Sac à Dos

Backpack Language Models

Résumé

Support