ChatPaper.aiChatPaper

Modelos de Linguagem Backpack

Backpack Language Models

May 26, 2023
Autores: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI

Resumo

Apresentamos as Backpacks: uma nova arquitetura neural que combina forte desempenho de modelagem com uma interface para interpretabilidade e controle. As Backpacks aprendem múltiplos vetores de sentido não contextuais para cada palavra em um vocabulário e representam uma palavra em uma sequência como uma combinação linear não negativa e dependente do contexto desses vetores de sentido. Descobrimos que, após o treinamento, os vetores de sentido se especializam, cada um codificando um aspecto diferente de uma palavra. Podemos interpretar um vetor de sentido inspecionando sua projeção (não contextual e linear) no espaço de saída e intervir nesses ganchos interpretáveis para alterar o comportamento do modelo de maneiras previsíveis. Treinamos um modelo de linguagem Backpack com 170 milhões de parâmetros no OpenWebText, igualando a perda de um Transformer GPT-2 small (124 milhões de parâmetros). Em avaliações de similaridade lexical, constatamos que os vetores de sentido das Backpacks superam até mesmo os embeddings de palavras de um Transformer LM com 6 bilhões de parâmetros. Por fim, apresentamos algoritmos simples que intervêm nos vetores de sentido para realizar geração de texto controlável e redução de viés. Por exemplo, podemos editar o vocabulário de sentido para tender mais a um tópico ou localizar uma fonte de viés de gênero em um vetor de sentido e suprimir globalmente esse sentido.
English
We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.
PDF11February 7, 2026