Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas

Resumen

Comprender el locus de la representación semántica en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para la interpretabilidad y la innovación arquitectónica. El paradigma dominante postula que los embeddings de entrada entrenables sirven como "vectores de significado" fundamentales. Este artículo desafía esa perspectiva. Construimos modelos Transformer en los que la capa de embeddings está completamente congelada, con vectores derivados no de datos, sino de la estructura visual de los glifos Unicode. Estos embeddings visuales precalculados y no semánticos permanecen fijos durante todo el entrenamiento. Nuestro método es compatible con cualquier tokenizador, incluido un nuevo tokenizador centrado en Unicode que introducimos para garantizar la cobertura universal de texto. A pesar de la ausencia de embeddings entrenables inicializados semánticamente, nuestros modelos convergen, generan texto coherente y, críticamente, superan a modelos arquitectónicamente idénticos con embeddings entrenables en el benchmark de razonamiento MMLU. Atribuimos esto a la "interferencia representacional" en los modelos convencionales, donde la capa de embeddings está sobrecargada con el aprendizaje tanto de características estructurales como semánticas. Nuestros resultados indican que la semántica de alto nivel no es inherente a los embeddings de entrada, sino una propiedad emergente de la arquitectura composicional del Transformer y la escala de datos. Esto redefine el papel de los embeddings, pasando de ser contenedores de significado a primitivos estructurales. Liberamos todo el código y los modelos para fomentar investigaciones futuras.

English

Understanding the locus of semantic representation in large language models (LLMs) is crucial for interpretability and architectural innovation. The dominant paradigm posits that trainable input embeddings serve as foundational "meaning vectors." This paper challenges that view. We construct Transformer models where the embedding layer is entirely frozen, with vectors derived not from data, but from the visual structure of Unicode glyphs. These non-semantic, precomputed visual embeddings are fixed throughout training. Our method is compatible with any tokenizer, including a novel Unicode-centric tokenizer we introduce to ensure universal text coverage. Despite the absence of trainable, semantically initialized embeddings, our models converge, generate coherent text, and, critically, outperform architecturally identical models with trainable embeddings on the MMLU reasoning benchmark. We attribute this to "representational interference" in conventional models, where the embedding layer is burdened with learning both structural and semantic features. Our results indicate that high-level semantics are not inherent to input embeddings but are an emergent property of the Transformer's compositional architecture and data scale. This reframes the role of embeddings from meaning containers to structural primitives. We release all code and models to foster further research.

Semántica Emergente Más Allá de las Incrustaciones de Tokens: Modelos de Lenguaje Transformadores con Representaciones Visuales Unicode Congeladas

Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Resumen

Support