Physique des modèles de langage : Partie 4.1, Conception architecturale et magie des couches canoniques

papers.abstract

Comprendre les différences architecturales des modèles de langage est complexe, particulièrement à l'échelle académique du pré-entraînement (par ex., 1,3 milliard de paramètres, 100 milliards de tokens), où les résultats sont souvent dominés par le bruit et l'aléatoire. Pour surmonter cela, nous introduisons des tâches de pré-entraînement synthétiques et contrôlées qui isolent et évaluent les capacités fondamentales des modèles. Dans ce cadre, nous découvrons les COUCHES CANON : des composants architecturaux légers — nommés d'après le terme musical « canon » — qui favorisent le flux d'information horizontal entre les tokens voisins. Les couches canon calculent des sommes pondérées des représentations des tokens proches et s'intègrent de manière transparente dans les Transformers, l'attention linéaire, les modèles à espace d'états, ou toute architecture séquentielle. Nous présentons 12 résultats clés. Ceux-ci incluent la manière dont les couches canon améliorent la profondeur de raisonnement (par ex., par un facteur 2), l'étendue du raisonnement, la manipulation des connaissances, etc. Elles permettent à des architectures faibles comme NoPE d'égaler RoPE, et à l'attention linéaire de rivaliser avec des modèles linéaires de pointe comme Mamba2/GDN — validé à la fois par des tâches synthétiques et un pré-entraînement réel à l'échelle académique. Ce terrain de jeu synthétique offre une voie économique et princiée pour isoler les capacités fondamentales des modèles, souvent masquées aux échelles académiques. Équipé de données de haute qualité en quantité infinie, il pourrait même PRÉDIRE comment les futures architectures se comporteront à mesure que les pipelines d'entraînement s'améliorent — par exemple via une meilleure curation des données ou un post-traitement par apprentissage par renforcement — déverrouillant un raisonnement plus profond et une inférence hiérarchique.

English

Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.

Physique des modèles de langage : Partie 4.1, Conception architecturale et magie des couches canoniques

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

papers.abstract

Support