Modelos de Lenguaje Lexinvariantes
Lexinvariant Language Models
May 24, 2023
Autores: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI
Resumen
Los embeddings de tokens, que mapean símbolos léxicos discretos a vectores continuos, son el núcleo de cualquier modelo de lenguaje (LM). Sin embargo, los significados de los símbolos léxicos también pueden determinarse e incluso redefinirse por su rol estructural en un contexto extenso. En este artículo, nos preguntamos: ¿es posible que un modelo de lenguaje sea eficaz sin embeddings de tokens fijos? Tal modelo de lenguaje tendría que depender completamente de la co-ocurrencia y repetición de tokens en el contexto, en lugar de la identidad a priori de cualquier token. Para responder esto, estudiamos modelos de lenguaje lexinvariantes, que son invariantes a los símbolos léxicos y, por lo tanto, no necesitan embeddings de tokens fijos en la práctica. Primero, demostramos que podemos construir un LM lexinvariante que converja al modelo de lenguaje verdadero a una tasa uniforme que es polinómica en términos de la longitud del contexto, con un factor constante que es sublineal en el tamaño del vocabulario. Segundo, para construir un LM lexinvariante, simplemente codificamos los tokens usando vectores gaussianos aleatorios, de modo que cada token se mapee a la misma representación dentro de cada secuencia pero a representaciones diferentes entre secuencias. Empíricamente, demostramos que, efectivamente, puede alcanzar una perplejidad comparable a la de un modelo de lenguaje estándar, dado un contexto suficientemente largo. Además, exploramos dos propiedades de los modelos de lenguaje lexinvariantes: Primero, dado un texto generado a partir de un cifrado por sustitución del inglés, implementa implícitamente un descifrado bayesiano en contexto e infiere el mapeo a los tokens subyacentes con alta precisión. Segundo, tiene en promedio una precisión 4 veces mejor en tareas de razonamiento sintético en contexto. Finalmente, discutimos la regularización de modelos de lenguaje estándar hacia la lexinvarianza y sus posibles aplicaciones prácticas.
English
Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without any fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the a priori identity of any token. To answer
this, we study lexinvariantlanguage models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.