Token-Löschung als Spur impliziter Vokabular-Elemente in LLMs.

papers.abstract

LLMs verarbeiten Text als Sequenzen von Tokens, die grob den Wörtern entsprechen, wobei weniger gebräuchliche Wörter durch mehrere Tokens dargestellt werden. Allerdings sind individuelle Tokens oft semantisch nicht mit den Bedeutungen der Wörter/Konzepte verbunden, die sie umfassen. Zum Beispiel zerlegt der Tokenizer von Llama-2-7b das Wort "northeastern" in die Tokens ['_n', 'ort', 'he', 'astern'], von denen keines semantisch bedeutende Einheiten wie "north" oder "east" entspricht. Ebenso können die Gesamtbedeutungen von Eigennamen wie "Neil Young" und mehrwortigen Ausdrücken wie "break a leg" nicht direkt aus ihren Bestandteilen abgeleitet werden. Mechanistisch gesehen, wie wandeln LLMs solche willkürlichen Tokengruppen in nützliche höhere Repräsentationen um? In dieser Arbeit stellen wir fest, dass die Repräsentationen des letzten Tokens von Eigennamen und mehrwortigen Wörtern einen ausgeprägten "Lösch"-Effekt aufweisen, bei dem Informationen über vorherige und aktuelle Tokens in den unteren Schichten schnell vergessen werden. Basierend auf dieser Beobachtung schlagen wir eine Methode vor, um das implizite Vokabular eines autoregressiven LLM zu "auszulesen", indem wir Unterschiede in den Token-Repräsentationen über Schichten hinweg untersuchen, und präsentieren Ergebnisse dieser Methode für Llama-2-7b und Llama-3-8B. Unseres Wissens nach handelt es sich hierbei um den ersten Versuch, das implizite Vokabular eines LLM zu untersuchen.

English

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b's tokenizer splits the word "northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which correspond to semantically meaningful units like "north" or "east." Similarly, the overall meanings of named entities like "Neil Young" and multi-word expressions like "break a leg" cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced "erasure" effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to "read out" the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.

Token-Löschung als Spur impliziter Vokabular-Elemente in LLMs.

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

papers.abstract

Support