Modelos de Lenguaje con Mochila

Resumen

Presentamos Backpacks: una nueva arquitectura neuronal que combina un fuerte rendimiento en modelado con una interfaz para interpretabilidad y control. Los Backpacks aprenden múltiples vectores de sentido no contextuales para cada palabra en un vocabulario, y representan una palabra en una secuencia como una combinación lineal no negativa y dependiente del contexto de estos vectores de sentido. Descubrimos que, después del entrenamiento, los vectores de sentido se especializan, cada uno codificando un aspecto diferente de una palabra. Podemos interpretar un vector de sentido inspeccionando su proyección (no contextual y lineal) en el espacio de salida, e intervenir en estos ganchos interpretables para cambiar el comportamiento del modelo de manera predecible. Entrenamos un modelo de lenguaje Backpack de 170M parámetros en OpenWebText, igualando la pérdida de un Transformer GPT-2 pequeño (124M parámetros). En evaluaciones de similitud léxica, encontramos que los vectores de sentido de Backpack superan incluso a los embeddings de palabras de un Transformer LM de 6B parámetros. Finalmente, presentamos algoritmos simples que intervienen en los vectores de sentido para realizar generación de texto controlable y eliminación de sesgos. Por ejemplo, podemos editar el vocabulario de sentido para inclinarse más hacia un tema, o localizar una fuente de sesgo de género en un vector de sentido y suprimir globalmente ese sentido.

English

We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.

Modelos de Lenguaje con Mochila

Backpack Language Models

Resumen

Support