Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations
July 7, 2025
Autores: A. Bochkov
cs.AI
Resumen
Comprender el locus de la representación semántica en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para la interpretabilidad y la innovación arquitectónica. El paradigma dominante postula que los embeddings de entrada entrenables sirven como "vectores de significado" fundamentales. Este artículo desafía esa perspectiva. Construimos modelos Transformer en los que la capa de embeddings está completamente congelada, con vectores derivados no de datos, sino de la estructura visual de los glifos Unicode. Estos embeddings visuales precalculados y no semánticos permanecen fijos durante todo el entrenamiento. Nuestro método es compatible con cualquier tokenizador, incluido un nuevo tokenizador centrado en Unicode que introducimos para garantizar la cobertura universal de texto. A pesar de la ausencia de embeddings entrenables inicializados semánticamente, nuestros modelos convergen, generan texto coherente y, críticamente, superan a modelos arquitectónicamente idénticos con embeddings entrenables en el benchmark de razonamiento MMLU. Atribuimos esto a la "interferencia representacional" en los modelos convencionales, donde la capa de embeddings está sobrecargada con el aprendizaje tanto de características estructurales como semánticas. Nuestros resultados indican que la semántica de alto nivel no es inherente a los embeddings de entrada, sino una propiedad emergente de la arquitectura composicional del Transformer y la escala de datos. Esto redefine el papel de los embeddings, pasando de ser contenedores de significado a primitivos estructurales. Liberamos todo el código y los modelos para fomentar investigaciones futuras.
English
Understanding the locus of semantic representation in large language models
(LLMs) is crucial for interpretability and architectural innovation. The
dominant paradigm posits that trainable input embeddings serve as foundational
"meaning vectors." This paper challenges that view. We construct Transformer
models where the embedding layer is entirely frozen, with vectors derived not
from data, but from the visual structure of Unicode glyphs. These non-semantic,
precomputed visual embeddings are fixed throughout training. Our method is
compatible with any tokenizer, including a novel Unicode-centric tokenizer we
introduce to ensure universal text coverage. Despite the absence of trainable,
semantically initialized embeddings, our models converge, generate coherent
text, and, critically, outperform architecturally identical models with
trainable embeddings on the MMLU reasoning benchmark. We attribute this to
"representational interference" in conventional models, where the embedding
layer is burdened with learning both structural and semantic features. Our
results indicate that high-level semantics are not inherent to input embeddings
but are an emergent property of the Transformer's compositional architecture
and data scale. This reframes the role of embeddings from meaning containers to
structural primitives. We release all code and models to foster further
research.