Semântica Emergente Além de Embeddings de Tokens: Modelos de Linguagem Transformers com Representações Visuais Unicode Congeladas
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations
July 7, 2025
Autores: A. Bochkov
cs.AI
Resumo
Compreender o locus da representação semântica em modelos de linguagem de grande escala (LLMs) é crucial para a interpretabilidade e inovação arquitetônica. O paradigma dominante postula que os embeddings de entrada treináveis servem como "vetores de significado" fundamentais. Este artigo desafia essa visão. Construímos modelos Transformer onde a camada de embedding é completamente congelada, com vetores derivados não de dados, mas da estrutura visual dos glifos Unicode. Esses embeddings visuais pré-computados e não semânticos são fixos durante todo o treinamento. Nosso método é compatível com qualquer tokenizador, incluindo um novo tokenizador centrado em Unicode que introduzimos para garantir cobertura universal de texto. Apesar da ausência de embeddings treináveis e semanticamente inicializados, nossos modelos convergem, geram texto coerente e, crucialmente, superam modelos arquitetonicamente idênticos com embeddings treináveis no benchmark de raciocínio MMLU. Atribuímos isso à "interferência representacional" em modelos convencionais, onde a camada de embedding é sobrecarregada com a aprendizagem de características estruturais e semânticas. Nossos resultados indicam que a semântica de alto nível não é inerente aos embeddings de entrada, mas uma propriedade emergente da arquitetura composicional do Transformer e da escala de dados. Isso redefine o papel dos embeddings de contêineres de significado para primitivos estruturais. Disponibilizamos todo o código e modelos para fomentar pesquisas adicionais.
English
Understanding the locus of semantic representation in large language models
(LLMs) is crucial for interpretability and architectural innovation. The
dominant paradigm posits that trainable input embeddings serve as foundational
"meaning vectors." This paper challenges that view. We construct Transformer
models where the embedding layer is entirely frozen, with vectors derived not
from data, but from the visual structure of Unicode glyphs. These non-semantic,
precomputed visual embeddings are fixed throughout training. Our method is
compatible with any tokenizer, including a novel Unicode-centric tokenizer we
introduce to ensure universal text coverage. Despite the absence of trainable,
semantically initialized embeddings, our models converge, generate coherent
text, and, critically, outperform architecturally identical models with
trainable embeddings on the MMLU reasoning benchmark. We attribute this to
"representational interference" in conventional models, where the embedding
layer is burdened with learning both structural and semantic features. Our
results indicate that high-level semantics are not inherent to input embeddings
but are an emergent property of the Transformer's compositional architecture
and data scale. This reframes the role of embeddings from meaning containers to
structural primitives. We release all code and models to foster further
research.