Sémantique émergente au-delà des embeddings de tokens : Modèles de langage Transformer avec représentations visuelles Unicode figées

papers.abstract

Comprendre le lieu de la représentation sémantique dans les grands modèles de langage (LLM) est crucial pour l'interprétabilité et l'innovation architecturale. Le paradigme dominant postule que les embeddings d'entrée entraînables servent de "vecteurs de sens" fondamentaux. Cet article remet en cause cette vision. Nous construisons des modèles Transformer où la couche d'embedding est entièrement figée, avec des vecteurs dérivés non pas des données, mais de la structure visuelle des glyphes Unicode. Ces embeddings visuels non sémantiques et précalculés restent fixes tout au long de l'entraînement. Notre méthode est compatible avec tout tokenizer, y compris un nouveau tokenizer centré sur Unicode que nous introduisons pour garantir une couverture textuelle universelle. Malgré l'absence d'embeddings entraînables et initialisés sémantiquement, nos modèles convergent, génèrent du texte cohérent et, surtout, surpassent des modèles architecturalement identiques avec des embeddings entraînables sur le benchmark de raisonnement MMLU. Nous attribuons cela à une "interférence représentationnelle" dans les modèles conventionnels, où la couche d'embedding est surchargée par l'apprentissage à la fois des caractéristiques structurelles et sémantiques. Nos résultats indiquent que la sémantique de haut niveau n'est pas inhérente aux embeddings d'entrée, mais est une propriété émergente de l'architecture compositionnelle du Transformer et de l'échelle des données. Cela redéfinit le rôle des embeddings, passant de conteneurs de sens à des primitives structurelles. Nous publions tout le code et les modèles pour favoriser des recherches ultérieures.

English

Understanding the locus of semantic representation in large language models (LLMs) is crucial for interpretability and architectural innovation. The dominant paradigm posits that trainable input embeddings serve as foundational "meaning vectors." This paper challenges that view. We construct Transformer models where the embedding layer is entirely frozen, with vectors derived not from data, but from the visual structure of Unicode glyphs. These non-semantic, precomputed visual embeddings are fixed throughout training. Our method is compatible with any tokenizer, including a novel Unicode-centric tokenizer we introduce to ensure universal text coverage. Despite the absence of trainable, semantically initialized embeddings, our models converge, generate coherent text, and, critically, outperform architecturally identical models with trainable embeddings on the MMLU reasoning benchmark. We attribute this to "representational interference" in conventional models, where the embedding layer is burdened with learning both structural and semantic features. Our results indicate that high-level semantics are not inherent to input embeddings but are an emergent property of the Transformer's compositional architecture and data scale. This reframes the role of embeddings from meaning containers to structural primitives. We release all code and models to foster further research.

Sémantique émergente au-delà des embeddings de tokens : Modèles de langage Transformer avec représentations visuelles Unicode figées

Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations

papers.abstract

Support