Token-Löschung als Spur impliziter Vokabular-Elemente in LLMs.
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs
June 28, 2024
Autoren: Sheridan Feucht, David Atkinson, Byron Wallace, David Bau
cs.AI
Zusammenfassung
LLMs verarbeiten Text als Sequenzen von Tokens, die grob den Wörtern entsprechen, wobei weniger gebräuchliche Wörter durch mehrere Tokens dargestellt werden. Allerdings sind individuelle Tokens oft semantisch nicht mit den Bedeutungen der Wörter/Konzepte verbunden, die sie umfassen. Zum Beispiel zerlegt der Tokenizer von Llama-2-7b das Wort "northeastern" in die Tokens ['_n', 'ort', 'he', 'astern'], von denen keines semantisch bedeutende Einheiten wie "north" oder "east" entspricht. Ebenso können die Gesamtbedeutungen von Eigennamen wie "Neil Young" und mehrwortigen Ausdrücken wie "break a leg" nicht direkt aus ihren Bestandteilen abgeleitet werden. Mechanistisch gesehen, wie wandeln LLMs solche willkürlichen Tokengruppen in nützliche höhere Repräsentationen um? In dieser Arbeit stellen wir fest, dass die Repräsentationen des letzten Tokens von Eigennamen und mehrwortigen Wörtern einen ausgeprägten "Lösch"-Effekt aufweisen, bei dem Informationen über vorherige und aktuelle Tokens in den unteren Schichten schnell vergessen werden. Basierend auf dieser Beobachtung schlagen wir eine Methode vor, um das implizite Vokabular eines autoregressiven LLM zu "auszulesen", indem wir Unterschiede in den Token-Repräsentationen über Schichten hinweg untersuchen, und präsentieren Ergebnisse dieser Methode für Llama-2-7b und Llama-3-8B. Unseres Wissens nach handelt es sich hierbei um den ersten Versuch, das implizite Vokabular eines LLM zu untersuchen.
English
LLMs process text as sequences of tokens that roughly correspond to words,
where less common words are represented by multiple tokens. However, individual
tokens are often semantically unrelated to the meanings of the words/concepts
they comprise. For example, Llama-2-7b's tokenizer splits the word
"northeastern" into the tokens ['_n', 'ort', 'he', 'astern'], none of which
correspond to semantically meaningful units like "north" or "east." Similarly,
the overall meanings of named entities like "Neil Young" and multi-word
expressions like "break a leg" cannot be directly inferred from their
constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups
of tokens into useful higher-level representations? In this work, we find that
last token representations of named entities and multi-token words exhibit a
pronounced "erasure" effect, where information about previous and current
tokens is rapidly forgotten in early layers. Using this observation, we propose
a method to "read out" the implicit vocabulary of an autoregressive LLM by
examining differences in token representations across layers, and present
results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is
the first attempt to probe the implicit vocabulary of an LLM.Summary
AI-Generated Summary