Физика языковых моделей: Часть 4.1, Архитектурный дизайн и магия канонических слоев

Аннотация

Понимание архитектурных различий языковых моделей является сложной задачей, особенно в рамках академического претренинга (например, 1.3 млрд параметров, 100 млрд токенов), где результаты часто определяются шумом и случайностью. Чтобы преодолеть это, мы представляем контролируемые синтетические задачи претренинга, которые изолируют и оценивают ключевые способности моделей. В рамках этого подхода мы открываем КАНОНИЧЕСКИЕ СЛОИ: легковесные архитектурные компоненты — названные по аналогии с музыкальным термином «канон» — которые способствуют горизонтальному потоку информации между соседними токенами. Канонические слои вычисляют взвешенные суммы представлений ближайших токенов и бесшовно интегрируются в Transformers, линейную attention-механику, state-space модели или любую последовательностную архитектуру. Мы представляем 12 ключевых результатов. Среди них — то, как канонические слои усиливают глубину рассуждений (например, в 2 раза), широту рассуждений, манипуляцию знаниями и т.д. Они позволяют слабым архитектурам, таким как NoPE, достигать уровня RoPE, а линейным attention-моделям — конкурировать с передовыми линейными моделями, такими как Mamba2/GDN, что подтверждено как синтетическими задачами, так и реальным академическим претренингом. Эта синтетическая среда предлагает экономичный и принципиальный путь для изоляции ключевых способностей моделей, часто скрытых на академических масштабах. Оснащенная бесконечными высококачественными данными, она может даже ПРЕДСКАЗЫВАТЬ, как будущие архитектуры будут вести себя по мере улучшения тренировочных пайплайнов — например, за счет лучшей курации данных или посттренинга на основе RL — открывая возможности для более глубоких рассуждений и иерархического вывода.

English

Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.

Физика языковых моделей: Часть 4.1, Архитектурный дизайн и магия канонических слоев

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

Аннотация

Support