Modelos de Lenguaje con Mochila
Backpack Language Models
May 26, 2023
Autores: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI
Resumen
Presentamos Backpacks: una nueva arquitectura neuronal que combina un fuerte rendimiento en modelado con una interfaz para interpretabilidad y control. Los Backpacks aprenden múltiples vectores de sentido no contextuales para cada palabra en un vocabulario, y representan una palabra en una secuencia como una combinación lineal no negativa y dependiente del contexto de estos vectores de sentido. Descubrimos que, después del entrenamiento, los vectores de sentido se especializan, cada uno codificando un aspecto diferente de una palabra. Podemos interpretar un vector de sentido inspeccionando su proyección (no contextual y lineal) en el espacio de salida, e intervenir en estos ganchos interpretables para cambiar el comportamiento del modelo de manera predecible. Entrenamos un modelo de lenguaje Backpack de 170M parámetros en OpenWebText, igualando la pérdida de un Transformer GPT-2 pequeño (124M parámetros). En evaluaciones de similitud léxica, encontramos que los vectores de sentido de Backpack superan incluso a los embeddings de palabras de un Transformer LM de 6B parámetros. Finalmente, presentamos algoritmos simples que intervienen en los vectores de sentido para realizar generación de texto controlable y eliminación de sesgos. Por ejemplo, podemos editar el vocabulario de sentido para inclinarse más hacia un tema, o localizar una fuente de sesgo de género en un vector de sentido y suprimir globalmente ese sentido.
English
We present Backpacks: a new neural architecture that marries strong modeling
performance with an interface for interpretability and control. Backpacks learn
multiple non-contextual sense vectors for each word in a vocabulary, and
represent a word in a sequence as a context-dependent, non-negative linear
combination of sense vectors in this sequence. We find that, after training,
sense vectors specialize, each encoding a different aspect of a word. We can
interpret a sense vector by inspecting its (non-contextual, linear) projection
onto the output space, and intervene on these interpretable hooks to change the
model's behavior in predictable ways. We train a 170M-parameter Backpack
language model on OpenWebText, matching the loss of a GPT-2 small
(124Mparameter) Transformer. On lexical similarity evaluations, we find that
Backpack sense vectors outperform even a 6B-parameter Transformer LM's word
embeddings. Finally, we present simple algorithms that intervene on sense
vectors to perform controllable text generation and debiasing. For example, we
can edit the sense vocabulary to tend more towards a topic, or localize a
source of gender bias to a sense vector and globally suppress that sense.