ChatPaper.aiChatPaper

Lexinvariante Sprachmodelle

Lexinvariant Language Models

May 24, 2023
Autoren: Qian Huang, Eric Zelikman, Sarah Li Chen, Yuhuai Wu, Gregory Valiant, Percy Liang
cs.AI

Zusammenfassung

Token-Embeddings, eine Abbildung von diskreten lexikalischen Symbolen auf kontinuierliche Vektoren, bilden das Herzstück jedes Sprachmodells (LM). Allerdings können die Bedeutungen lexikalischer Symbole auch durch ihre strukturelle Rolle in einem langen Kontext bestimmt und sogar neu definiert werden. In diesem Artikel stellen wir die Frage: Ist es möglich, dass ein Sprachmodell leistungsfähig ist, ohne feste Token-Embeddings zu verwenden? Ein solches Sprachmodell müsste sich vollständig auf das gemeinsame Auftreten und die Wiederholung von Tokens im Kontext verlassen, anstatt auf die a priori Identität eines Tokens. Um dies zu beantworten, untersuchen wir lexinvariante Sprachmodelle, die gegenüber lexikalischen Symbolen invariant sind und daher in der Praxis keine festen Token-Embeddings benötigen. Zunächst beweisen wir, dass wir ein lexinvariantes LM konstruieren können, das mit einer gleichmäßigen Rate, die polynomiell in Bezug auf die Kontextlänge ist und einen konstanten Faktor aufweist, der sublinear in der Vokabulargröße ist, gegen das wahre Sprachmodell konvergiert. Zweitens bauen wir ein lexinvariantes LM, indem wir Tokens einfach mit zufälligen Gauß-Vektoren kodieren, sodass jeder Token innerhalb jeder Sequenz dieselbe Darstellung erhält, aber über verschiedene Sequenzen hinweg unterschiedliche Darstellungen. Empirisch zeigen wir, dass es tatsächlich eine Perplexität erreichen kann, die mit der eines Standard-Sprachmodells vergleichbar ist, vorausgesetzt, der Kontext ist ausreichend lang. Wir untersuchen weiterhin zwei Eigenschaften lexinvarianter Sprachmodelle: Erstens implementiert es bei einem aus einer Substitutionschiffre des Englischen generierten Text implizit eine Bayes’sche Entschlüsselung im Kontext und leitet die Abbildung auf die zugrunde liegenden realen Tokens mit hoher Genauigkeit ab. Zweitens weist es im Durchschnitt eine 4-fach bessere Genauigkeit bei synthetischen Aufgaben zur Schlussfolgerung im Kontext auf. Schließlich diskutieren wir die Regularisierung standardmäßiger Sprachmodelle hin zur Lexinvarianz und potenzielle praktische Anwendungen.
English
Token embeddings, a mapping from discrete lexical symbols to continuous vectors, are at the heart of any language model (LM). However, lexical symbol meanings can also be determined and even redefined by their structural role in a long context. In this paper, we ask: is it possible for a language model to be performant without any fixed token embeddings? Such a language model would have to rely entirely on the co-occurence and repetition of tokens in the context rather than the a priori identity of any token. To answer this, we study lexinvariantlanguage models that are invariant to lexical symbols and therefore do not need fixed token embeddings in practice. First, we prove that we can construct a lexinvariant LM to converge to the true language model at a uniform rate that is polynomial in terms of the context length, with a constant factor that is sublinear in the vocabulary size. Second, to build a lexinvariant LM, we simply encode tokens using random Gaussian vectors, such that each token maps to the same representation within each sequence but different representations across sequences. Empirically, we demonstrate that it can indeed attain perplexity comparable to that of a standard language model, given a sufficiently long context. We further explore two properties of the lexinvariant language models: First, given text generated from a substitution cipher of English, it implicitly implements Bayesian in-context deciphering and infers the mapping to the underlying real tokens with high accuracy. Second, it has on average 4X better accuracy over synthetic in-context reasoning tasks. Finally, we discuss regularizing standard language models towards lexinvariance and potential practical applications.
PDF20December 15, 2024