LLM-Mikroskop: Die versteckte Rolle der Interpunktion im Kontextgedächtnis von Transformern
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
February 20, 2025
Autoren: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI
Zusammenfassung
Wir stellen Methoden vor, um zu quantifizieren, wie Large Language Models (LLMs) kontextuelle Informationen kodieren und speichern. Dabei zeigt sich, dass Token, die oft als unbedeutend angesehen werden (z. B. Artikel, Satzzeichen), überraschend viel Kontext tragen. Bemerkenswerterweise führt das Entfernen dieser Token – insbesondere von Stoppwörtern, Artikeln und Kommas – zu einer konsistenten Verschlechterung der Leistung bei MMLU und BABILong-4k, selbst wenn nur irrelevante Token entfernt werden. Unsere Analyse zeigt auch eine starke Korrelation zwischen Kontextualisierung und Linearität, wobei Linearität misst, wie gut die Transformation von den Embeddings einer Schicht zur nächsten durch eine einzelne lineare Abbildung approximiert werden kann. Diese Erkenntnisse unterstreichen die verborgene Bedeutung von Füll-Token für die Aufrechterhaltung des Kontexts. Zur weiteren Untersuchung präsentieren wir LLM-Microscope, ein Open-Source-Toolkit, das Token-Level-Nichtlinearität bewertet, kontextuelles Gedächtnis analysiert, Beiträge von Zwischenschichten visualisiert (über eine angepasste Logit Lens) und die intrinsische Dimensionalität von Repräsentationen misst. Dieses Toolkit verdeutlicht, wie scheinbar triviale Token für das langfristige Verständnis entscheidend sein können.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and
store contextual information, revealing that tokens often seen as minor (e.g.,
determiners, punctuation) carry surprisingly high context. Notably, removing
these tokens -- especially stopwords, articles, and commas -- consistently
degrades performance on MMLU and BABILong-4k, even if removing only irrelevant
tokens. Our analysis also shows a strong correlation between contextualization
and linearity, where linearity measures how closely the transformation from one
layer's embeddings to the next can be approximated by a single linear mapping.
These findings underscore the hidden importance of filler tokens in maintaining
context. For further exploration, we present LLM-Microscope, an open-source
toolkit that assesses token-level nonlinearity, evaluates contextual memory,
visualizes intermediate layer contributions (via an adapted Logit Lens), and
measures the intrinsic dimensionality of representations. This toolkit
illuminates how seemingly trivial tokens can be critical for long-range
understanding.Summary
AI-Generated Summary