Лексиинвариантные языковые модели
Lexinvariant Language Models
May 24, 2023
Авторы: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI
Аннотация
Токенные эмбеддинги, представляющие собой отображение дискретных лексических символов в непрерывные векторы, лежат в основе любой языковой модели (LM). Однако значения лексических символов также могут определяться и даже переопределяться их структурной ролью в длинном контексте. В данной статье мы задаемся вопросом: возможно ли создать языковую модель, которая будет эффективной без использования фиксированных токенных эмбеддингов? Такая модель должна полностью полагаться на совместное появление и повторение токенов в контексте, а не на априорную идентичность любого токена. Чтобы ответить на этот вопрос, мы изучаем лексически инвариантные языковые модели, которые не зависят от лексических символов и, следовательно, не требуют фиксированных токенных эмбеддингов на практике. Во-первых, мы доказываем, что можно построить лексически инвариантную LM, которая сходится к истинной языковой модели с равномерной скоростью, полиномиальной по длине контекста, с постоянным множителем, который является сублинейным по размеру словаря. Во-вторых, чтобы построить такую модель, мы просто кодируем токены с использованием случайных гауссовских векторов, так что каждый токен отображается на одно и то же представление внутри каждой последовательности, но на разные представления между последовательностями. Эмпирически мы демонстрируем, что такая модель действительно может достичь перплексии, сравнимой с перплексией стандартной языковой модели, при условии достаточно длинного контекста. Мы также исследуем два свойства лексически инвариантных языковых моделей: во-первых, при работе с текстом, сгенерированным из подстановочного шифра английского языка, модель неявно реализует байесовское дешифрование в контексте и с высокой точностью выводит отображение на реальные токены. Во-вторых, она демонстрирует в среднем в 4 раза лучшую точность в синтетических задачах рассуждения в контексте. Наконец, мы обсуждаем регуляризацию стандартных языковых моделей в сторону лексической инвариантности и потенциальные практические применения.
English
Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without any fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the a priori identity of any token. To answer
this, we study lexinvariantlanguage models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.