ChatPaper.aiChatPaper

Emergente Semantik jenseits von Token-Einbettungen: Transformer-Sprachmodelle mit eingefrorenen visuellen Unicode-Repräsentationen

Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

July 7, 2025
papers.authors: A. Bochkov
cs.AI

papers.abstract

Das Verständnis des Ortes der semantischen Repräsentation in großen Sprachmodellen (LLMs) ist entscheidend für Interpretierbarkeit und architektonische Innovation. Das vorherrschende Paradigma geht davon aus, dass trainierbare Eingabe-Embeddings als grundlegende „Bedeutungsvektoren“ dienen. Diese Arbeit stellt diese Ansicht in Frage. Wir konstruieren Transformer-Modelle, bei denen die Embedding-Schicht vollständig eingefroren ist, wobei die Vektoren nicht aus Daten, sondern aus der visuellen Struktur von Unicode-Glyphen abgeleitet werden. Diese nicht-semantischen, vorberechneten visuellen Embeddings bleiben während des gesamten Trainings fest. Unsere Methode ist mit jedem Tokenizer kompatibel, einschließlich eines neuartigen Unicode-zentrierten Tokenizers, den wir einführen, um eine universelle Textabdeckung zu gewährleisten. Trotz des Fehlens trainierbarer, semantisch initialisierter Embeddings konvergieren unsere Modelle, erzeugen kohärenten Text und übertreffen kritisch architektonisch identische Modelle mit trainierbaren Embeddings im MMLU-Reasoning-Benchmark. Wir führen dies auf „repräsentative Interferenz“ in konventionellen Modellen zurück, bei denen die Embedding-Schicht sowohl strukturelle als auch semantische Merkmale lernen muss. Unsere Ergebnisse deuten darauf hin, dass hochrangige Semantik nicht inhärent in Eingabe-Embeddings enthalten ist, sondern eine emergente Eigenschaft der kompositionellen Architektur des Transformers und der Datenmenge darstellt. Dies verändert die Rolle der Embeddings von Bedeutungsträgern zu strukturellen Primitiven. Wir veröffentlichen den gesamten Code und die Modelle, um weitere Forschungen zu fördern.
English
Understanding the locus of semantic representation in large language models (LLMs) is crucial for interpretability and architectural innovation. The dominant paradigm posits that trainable input embeddings serve as foundational "meaning vectors." This paper challenges that view. We construct Transformer models where the embedding layer is entirely frozen, with vectors derived not from data, but from the visual structure of Unicode glyphs. These non-semantic, precomputed visual embeddings are fixed throughout training. Our method is compatible with any tokenizer, including a novel Unicode-centric tokenizer we introduce to ensure universal text coverage. Despite the absence of trainable, semantically initialized embeddings, our models converge, generate coherent text, and, critically, outperform architecturally identical models with trainable embeddings on the MMLU reasoning benchmark. We attribute this to "representational interference" in conventional models, where the embedding layer is burdened with learning both structural and semantic features. Our results indicate that high-level semantics are not inherent to input embeddings but are an emergent property of the Transformer's compositional architecture and data scale. This reframes the role of embeddings from meaning containers to structural primitives. We release all code and models to foster further research.
PDF11July 11, 2025