Modelli Linguistici Lessico-Invarianti
Lexinvariant Language Models
May 24, 2023
Autori: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI
Abstract
Gli embedding di token, una mappatura da simboli lessicali discreti a vettori continui, sono al cuore di qualsiasi modello linguistico (LM). Tuttavia, i significati dei simboli lessicali possono anche essere determinati e persino ridefiniti dal loro ruolo strutturale in un contesto lungo. In questo articolo, ci chiediamo: è possibile per un modello linguistico essere performante senza alcun embedding di token fisso? Un tale modello linguistico dovrebbe fare affidamento esclusivamente sulla co-occorrenza e sulla ripetizione dei token nel contesto piuttosto che sull'identità a priori di qualsiasi token. Per rispondere a questa domanda, studiamo modelli linguistici lessinvarianti che sono invarianti rispetto ai simboli lessicali e quindi non necessitano di embedding di token fissi nella pratica. In primo luogo, dimostriamo che possiamo costruire un LM lessinvariante per convergere al vero modello linguistico a una velocità uniforme che è polinomiale in termini della lunghezza del contesto, con un fattore costante che è sublineare rispetto alla dimensione del vocabolario. In secondo luogo, per costruire un LM lessinvariante, codifichiamo semplicemente i token utilizzando vettori gaussiani casuali, in modo che ogni token mappi alla stessa rappresentazione all'interno di ciascuna sequenza ma a rappresentazioni diverse tra le sequenze. Empiricamente, dimostriamo che può effettivamente raggiungere una perplessità paragonabile a quella di un modello linguistico standard, dato un contesto sufficientemente lungo. Esploriamo ulteriormente due proprietà dei modelli linguistici lessinvarianti: in primo luogo, dato un testo generato da un cifrario a sostituzione dell'inglese, implementa implicitamente la decifratura bayesiana in contesto e inferisce la mappatura ai token reali sottostanti con alta precisione. In secondo luogo, ha in media una precisione 4 volte migliore nei compiti di ragionamento sintetico in contesto. Infine, discutiamo la regolarizzazione dei modelli linguistici standard verso la lessinvarianza e le potenziali applicazioni pratiche.
English
Token embeddings, a mapping from discrete lexical symbols to continuous
vectors, are at the heart of any language model (LM). However, lexical symbol
meanings can also be determined and even redefined by their structural role in
a long context. In this paper, we ask: is it possible for a language model to
be performant without any fixed token embeddings? Such a language model
would have to rely entirely on the co-occurence and repetition of tokens in the
context rather than the a priori identity of any token. To answer
this, we study lexinvariantlanguage models that are invariant to
lexical symbols and therefore do not need fixed token embeddings in practice.
First, we prove that we can construct a lexinvariant LM to converge to the true
language model at a uniform rate that is polynomial in terms of the context
length, with a constant factor that is sublinear in the vocabulary size.
Second, to build a lexinvariant LM, we simply encode tokens using random
Gaussian vectors, such that each token maps to the same representation within
each sequence but different representations across sequences. Empirically, we
demonstrate that it can indeed attain perplexity comparable to that of a
standard language model, given a sufficiently long context. We further explore
two properties of the lexinvariant language models: First, given text generated
from a substitution cipher of English, it implicitly implements Bayesian
in-context deciphering and infers the mapping to the underlying real tokens
with high accuracy. Second, it has on average 4X better accuracy over synthetic
in-context reasoning tasks. Finally, we discuss regularizing standard language
models towards lexinvariance and potential practical applications.