Lexinvariante Taalmodellen
Lexinvariant Language Models
May 24, 2023
Auteurs: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI
Samenvatting
Token embeddings, een mapping van discrete lexicale symbolen naar continue
vectoren, vormen de kern van elk taalmodel (LM). Echter, de betekenissen van
lexicale symbolen kunnen ook worden bepaald en zelfs herdefinieerd door hun
structurele rol in een lange context. In dit artikel vragen we: is het mogelijk
voor een taalmodel om presterend te zijn zonder vaste token embeddings? Zo'n
taalmodel zou volledig moeten vertrouwen op het samen voorkomen en de herhaling
van tokens in de context in plaats van de a priori identiteit van een token. Om
dit te beantwoorden, bestuderen we lexinvariante taalmodelen die invariant zijn
voor lexicale symbolen en daarom in de praktijk geen vaste token embeddings
nodig hebben. Ten eerste bewijzen we dat we een lexinvariant LM kunnen
construeren om te convergeren naar het echte taalmodel met een uniforme snelheid
die polynomiaal is in termen van de contextlengte, met een constante factor die
sublineair is in de vocabulairegrootte. Ten tweede, om een lexinvariant LM te
bouwen, coderen we tokens eenvoudigweg met behulp van willekeurige Gaussische
vectoren, zodat elk token binnen elke sequentie dezelfde representatie krijgt
maar verschillende representaties tussen sequenties. Empirisch demonstreren we
dat het inderdaad perplexiteit kan bereiken die vergelijkbaar is met die van een
standaard taalmodel, gegeven een voldoende lange context. We onderzoeken verder
twee eigenschappen van de lexinvariante taalmodelen: Ten eerste, gegeven tekst
gegenereerd uit een substitutiecijfer van het Engels, implementeert het
impliciet Bayesiaanse in-context decodering en leidt het de mapping naar de
onderliggende echte tokens af met hoge nauwkeurigheid. Ten tweede, het heeft
gemiddeld 4X betere nauwkeurigheid bij synthetische in-context redeneertaken.
Tot slot bespreken we het regulariseren van standaard taalmodelen richting
lexinvariantie en mogelijke praktische toepassingen.
English
Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without any fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the a priori identity of any token. To answer
this, we study lexinvariantlanguage models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.