Языковые модели Backpack
Backpack Language Models
May 26, 2023
Авторы: John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
cs.AI
Аннотация
Мы представляем Backpacks: новую нейронную архитектуру, которая сочетает высокую производительность моделирования с интерфейсом для интерпретируемости и контроля. Backpacks обучают несколько неконтекстуальных векторов смыслов для каждого слова в словаре и представляют слово в последовательности как контекстно-зависимую, неотрицательную линейную комбинацию векторов смыслов в этой последовательности. Мы обнаруживаем, что после обучения векторы смыслов специализируются, каждый кодируя различные аспекты слова. Мы можем интерпретировать вектор смысла, анализируя его (неконтекстуальную, линейную) проекцию на выходное пространство, и вмешиваться в эти интерпретируемые элементы, чтобы изменять поведение модели предсказуемым образом. Мы обучаем языковую модель Backpack с 170 миллионами параметров на данных OpenWebText, достигая уровня потерь, сравнимого с GPT-2 small (124 миллиона параметров) Transformer. На оценках лексического сходства мы обнаруживаем, что векторы смыслов Backpack превосходят даже вложения слов Transformer LM с 6 миллиардами параметров. Наконец, мы представляем простые алгоритмы, которые вмешиваются в векторы смыслов для выполнения контролируемой генерации текста и устранения смещений. Например, мы можем редактировать словарь смыслов, чтобы он больше склонялся к определенной теме, или локализовать источник гендерного смещения в векторе смысла и глобально подавить этот смысл.
English
We present Backpacks: a new neural architecture that marries strong modeling
performance with an interface for interpretability and control. Backpacks learn
multiple non-contextual sense vectors for each word in a vocabulary, and
represent a word in a sequence as a context-dependent, non-negative linear
combination of sense vectors in this sequence. We find that, after training,
sense vectors specialize, each encoding a different aspect of a word. We can
interpret a sense vector by inspecting its (non-contextual, linear) projection
onto the output space, and intervene on these interpretable hooks to change the
model's behavior in predictable ways. We train a 170M-parameter Backpack
language model on OpenWebText, matching the loss of a GPT-2 small
(124Mparameter) Transformer. On lexical similarity evaluations, we find that
Backpack sense vectors outperform even a 6B-parameter Transformer LM's word
embeddings. Finally, we present simple algorithms that intervene on sense
vectors to perform controllable text generation and debiasing. For example, we
can edit the sense vocabulary to tend more towards a topic, or localize a
source of gender bias to a sense vector and globally suppress that sense.