Semantica Emergente Oltre gli Embedding di Token: Modelli Linguistici Transformer con Rappresentazioni Unicode Visive Congelate
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations
July 7, 2025
Autori: A. Bochkov
cs.AI
Abstract
Comprendere il locus della rappresentazione semantica nei grandi modelli linguistici (LLM) è cruciale per l'interpretabilità e l'innovazione architetturale. Il paradigma dominante presuppone che gli embedding di input addestrabili fungano da "vettori di significato" fondamentali. Questo articolo mette in discussione tale visione. Costruiamo modelli Transformer in cui lo strato di embedding è completamente congelato, con vettori derivati non dai dati, ma dalla struttura visiva dei glifi Unicode. Questi embedding visivi precalcolati e non semantici rimangono fissi durante l'addestramento. Il nostro metodo è compatibile con qualsiasi tokenizer, incluso un nuovo tokenizer centrato su Unicode che introduciamo per garantire una copertura universale del testo. Nonostante l'assenza di embedding addestrabili e inizializzati semanticamente, i nostri modelli convergono, generano testo coerente e, soprattutto, superano modelli architettonicamente identici con embedding addestrabili nel benchmark di ragionamento MMLU. Attribuiamo ciò a un "interferenza rappresentazionale" nei modelli convenzionali, in cui lo strato di embedding è gravato dall'apprendimento sia di caratteristiche strutturali che semantiche. I nostri risultati indicano che la semantica di alto livello non è intrinseca agli embedding di input, ma è una proprietà emergente dell'architettura compositiva del Transformer e della scala dei dati. Ciò ridefinisce il ruolo degli embedding da contenitori di significato a primitive strutturali. Rilasciamo tutto il codice e i modelli per favorire ulteriori ricerche.
English
Understanding the locus of semantic representation in large language models
(LLMs) is crucial for interpretability and architectural innovation. The
dominant paradigm posits that trainable input embeddings serve as foundational
"meaning vectors." This paper challenges that view. We construct Transformer
models where the embedding layer is entirely frozen, with vectors derived not
from data, but from the visual structure of Unicode glyphs. These non-semantic,
precomputed visual embeddings are fixed throughout training. Our method is
compatible with any tokenizer, including a novel Unicode-centric tokenizer we
introduce to ensure universal text coverage. Despite the absence of trainable,
semantically initialized embeddings, our models converge, generate coherent
text, and, critically, outperform architecturally identical models with
trainable embeddings on the MMLU reasoning benchmark. We attribute this to
"representational interference" in conventional models, where the embedding
layer is burdened with learning both structural and semantic features. Our
results indicate that high-level semantics are not inherent to input embeddings
but are an emergent property of the Transformer's compositional architecture
and data scale. This reframes the role of embeddings from meaning containers to
structural primitives. We release all code and models to foster further
research.