Modelos de Linguagem Lexinvariantes
Lexinvariant Language Models
May 24, 2023
Autores: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI
Resumo
Embeddings de tokens, um mapeamento de símbolos lexicais discretos para vetores contínuos, estão no cerne de qualquer modelo de linguagem (LM). No entanto, os significados dos símbolos lexicais também podem ser determinados e até redefinidos por seu papel estrutural em um contexto longo. Neste artigo, perguntamos: é possível que um modelo de linguagem seja eficaz sem embeddings de tokens fixos? Tal modelo de linguagem teria que depender inteiramente da co-ocorrência e repetição de tokens no contexto, em vez da identidade a priori de qualquer token. Para responder a isso, estudamos modelos de linguagem lexinvariantes que são invariantes a símbolos lexicais e, portanto, não precisam de embeddings de tokens fixos na prática. Primeiro, provamos que podemos construir um LM lexinvariante para convergir ao modelo de linguagem verdadeiro a uma taxa uniforme que é polinomial em termos do comprimento do contexto, com um fator constante que é sublinear no tamanho do vocabulário. Segundo, para construir um LM lexinvariante, simplesmente codificamos tokens usando vetores gaussianos aleatórios, de modo que cada token mapeie para a mesma representação dentro de cada sequência, mas diferentes representações entre sequências. Empiricamente, demonstramos que ele pode de fato atingir perplexidade comparável à de um modelo de linguagem padrão, dado um contexto suficientemente longo. Exploramos ainda duas propriedades dos modelos de linguagem lexinvariantes: Primeiro, dado texto gerado a partir de uma cifra de substituição do inglês, ele implementa implicitamente a decifração bayesiana no contexto e infere o mapeamento para os tokens reais subjacentes com alta precisão. Segundo, ele tem, em média, 4X melhor precisão em tarefas de raciocínio sintético no contexto. Por fim, discutimos a regularização de modelos de linguagem padrão em direção à lexinvariância e potenciais aplicações práticas.
English
Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without any fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the a priori identity of any token. To answer
this, we study lexinvariantlanguage models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.