Возникающая семантика за пределами токенных эмбеддингов: трансформерные языковые модели с замороженными визуальными представлениями Unicode
Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations
July 7, 2025
Авторы: A. Bochkov
cs.AI
Аннотация
Понимание места семантического представления в больших языковых моделях (LLM) имеет ключевое значение для интерпретируемости и инноваций в архитектуре. Доминирующая парадигма предполагает, что обучаемые входные эмбеддинги служат основополагающими "векторами смысла". В данной статье мы оспариваем эту точку зрения. Мы создаем модели Transformer, в которых слой эмбеддингов полностью заморожен, а векторы получены не из данных, а из визуальной структуры Unicode-глифов. Эти несемантические, предварительно вычисленные визуальные эмбеддинги остаются фиксированными на протяжении всего обучения. Наш метод совместим с любым токенизатором, включая новый Unicode-ориентированный токенизатор, который мы представляем для обеспечения универсального покрытия текста. Несмотря на отсутствие обучаемых, семантически инициализированных эмбеддингов, наши модели сходятся, генерируют связный текст и, что особенно важно, превосходят архитектурно идентичные модели с обучаемыми эмбеддингами на тесте MMLU (Massive Multitask Language Understanding). Мы связываем это с "репрезентационным вмешательством" в традиционных моделях, где слой эмбеддингов вынужден обучаться как структурным, так и семантическим признакам. Наши результаты показывают, что высокоуровневая семантика не является неотъемлемым свойством входных эмбеддингов, а представляет собой эмерджентное свойство композиционной архитектуры Transformer и масштаба данных. Это переосмысливает роль эмбеддингов: от контейнеров смысла к структурным примитивам. Мы публикуем весь код и модели для стимулирования дальнейших исследований.
English
Understanding the locus of semantic representation in large language models
(LLMs) is crucial for interpretability and architectural innovation. The
dominant paradigm posits that trainable input embeddings serve as foundational
"meaning vectors." This paper challenges that view. We construct Transformer
models where the embedding layer is entirely frozen, with vectors derived not
from data, but from the visual structure of Unicode glyphs. These non-semantic,
precomputed visual embeddings are fixed throughout training. Our method is
compatible with any tokenizer, including a novel Unicode-centric tokenizer we
introduce to ensure universal text coverage. Despite the absence of trainable,
semantically initialized embeddings, our models converge, generate coherent
text, and, critically, outperform architecturally identical models with
trainable embeddings on the MMLU reasoning benchmark. We attribute this to
"representational interference" in conventional models, where the embedding
layer is burdened with learning both structural and semantic features. Our
results indicate that high-level semantics are not inherent to input embeddings
but are an emergent property of the Transformer's compositional architecture
and data scale. This reframes the role of embeddings from meaning containers to
structural primitives. We release all code and models to foster further
research.