Modèles de Langage Lexinvariants

Résumé

Les embeddings de tokens, qui consistent en une correspondance entre des symboles lexicaux discrets et des vecteurs continus, sont au cœur de tout modèle de langage (LM). Cependant, les significations des symboles lexicaux peuvent également être déterminées, voire redéfinies, par leur rôle structurel dans un contexte étendu. Dans cet article, nous posons la question suivante : est-il possible pour un modèle de langage d’être performant sans aucun embedding de token fixe ? Un tel modèle de langage devrait s’appuyer entièrement sur la co-occurrence et la répétition des tokens dans le contexte plutôt que sur l’identité a priori de tout token. Pour y répondre, nous étudions des modèles de langage lexinvariants, qui sont invariants aux symboles lexicaux et n’ont donc pas besoin d’embeddings de tokens fixes en pratique. Premièrement, nous prouvons qu’il est possible de construire un modèle de langage lexinvariant qui converge vers le vrai modèle de langage à un taux uniforme polynomial en fonction de la longueur du contexte, avec un facteur constant sous-linéaire par rapport à la taille du vocabulaire. Deuxièmement, pour construire un tel modèle, nous encodons simplement les tokens à l’aide de vecteurs gaussiens aléatoires, de sorte que chaque token soit mappé à la même représentation au sein d’une séquence donnée, mais à des représentations différentes entre les séquences. Empiriquement, nous démontrons qu’il peut effectivement atteindre une perplexité comparable à celle d’un modèle de langage standard, à condition d’un contexte suffisamment long. Nous explorons ensuite deux propriétés des modèles de langage lexinvariants : premièrement, face à un texte généré à partir d’un chiffrement par substitution de l’anglais, il implémente implicitement un déchiffrement bayésien en contexte et infère la correspondance avec les tokens réels sous-jacents avec une grande précision. Deuxièmement, il présente en moyenne une précision 4 fois supérieure sur des tâches de raisonnement en contexte synthétiques. Enfin, nous discutons de la régularisation des modèles de langage standards vers la lexinvariance et des applications pratiques potentielles.

English

Token embeddings, a mapping from discrete lexical symbols to continuous vectors, are at the heart of any language model (LM). However, lexical symbol meanings can also be determined and even redefined by their structural role in a long context. In this paper, we ask: is it possible for a language model to be performant without any fixed token embeddings? Such a language model would have to rely entirely on the co-occurence and repetition of tokens in the context rather than the a priori identity of any token. To answer this, we study lexinvariantlanguage models that are invariant to lexical symbols and therefore do not need fixed token embeddings in practice. First, we prove that we can construct a lexinvariant LM to converge to the true language model at a uniform rate that is polynomial in terms of the context length, with a constant factor that is sublinear in the vocabulary size. Second, to build a lexinvariant LM, we simply encode tokens using random Gaussian vectors, such that each token maps to the same representation within each sequence but different representations across sequences. Empirically, we demonstrate that it can indeed attain perplexity comparable to that of a standard language model, given a sufficiently long context. We further explore two properties of the lexinvariant language models: First, given text generated from a substitution cipher of English, it implicitly implements Bayesian in-context deciphering and infers the mapping to the underlying real tokens with high accuracy. Second, it has on average 4X better accuracy over synthetic in-context reasoning tasks. Finally, we discuss regularizing standard language models towards lexinvariance and potential practical applications.

Modèles de Langage Lexinvariants

Lexinvariant Language Models

Résumé

Support