Semântica Emergente Além de Embeddings de Tokens: Modelos de Linguagem Transformers com Representações Visuais Unicode Congeladas

Resumo

Compreender o locus da representação semântica em modelos de linguagem de grande escala (LLMs) é crucial para a interpretabilidade e inovação arquitetônica. O paradigma dominante postula que os embeddings de entrada treináveis servem como "vetores de significado" fundamentais. Este artigo desafia essa visão. Construímos modelos Transformer onde a camada de embedding é completamente congelada, com vetores derivados não de dados, mas da estrutura visual dos glifos Unicode. Esses embeddings visuais pré-computados e não semânticos são fixos durante todo o treinamento. Nosso método é compatível com qualquer tokenizador, incluindo um novo tokenizador centrado em Unicode que introduzimos para garantir cobertura universal de texto. Apesar da ausência de embeddings treináveis e semanticamente inicializados, nossos modelos convergem, geram texto coerente e, crucialmente, superam modelos arquitetonicamente idênticos com embeddings treináveis no benchmark de raciocínio MMLU. Atribuímos isso à "interferência representacional" em modelos convencionais, onde a camada de embedding é sobrecarregada com a aprendizagem de características estruturais e semânticas. Nossos resultados indicam que a semântica de alto nível não é inerente aos embeddings de entrada, mas uma propriedade emergente da arquitetura composicional do Transformer e da escala de dados. Isso redefine o papel dos embeddings de contêineres de significado para primitivos estruturais. Disponibilizamos todo o código e modelos para fomentar pesquisas adicionais.

English

Understanding the locus of semantic representation in large language models (LLMs) is crucial for interpretability and architectural innovation. The dominant paradigm posits that trainable input embeddings serve as foundational "meaning vectors." This paper challenges that view. We construct Transformer models where the embedding layer is entirely frozen, with vectors derived not from data, but from the visual structure of Unicode glyphs. These non-semantic, precomputed visual embeddings are fixed throughout training. Our method is compatible with any tokenizer, including a novel Unicode-centric tokenizer we introduce to ensure universal text coverage. Despite the absence of trainable, semantically initialized embeddings, our models converge, generate coherent text, and, critically, outperform architecturally identical models with trainable embeddings on the MMLU reasoning benchmark. We attribute this to "representational interference" in conventional models, where the embedding layer is burdened with learning both structural and semantic features. Our results indicate that high-level semantics are not inherent to input embeddings but are an emergent property of the Transformer's compositional architecture and data scale. This reframes the role of embeddings from meaning containers to structural primitives. We release all code and models to foster further research.

Semântica Emergente Além de Embeddings de Tokens: Modelos de Linguagem Transformers com Representações Visuais Unicode Congeladas

Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

Resumo

Support