Physik der Sprachmodelle: Teil 4.1, Architekturdesign und die Magie der Kanonischen Schichten

papers.abstract

Das Verständnis architektonischer Unterschiede bei Sprachmodellen ist eine Herausforderung, insbesondere im akademischen Maßstab des Vortrainings (z.B. 1,3 Mrd. Parameter, 100 Mrd. Token), wo Ergebnisse oft von Rauschen und Zufälligkeit dominiert werden. Um dies zu überwinden, führen wir kontrollierte, synthetische Vortrainingsaufgaben ein, die grundlegende Modellfähigkeiten isolieren und bewerten. Innerhalb dieses Rahmens entdecken wir CANON LAYERS: leichtgewichtige architektonische Komponenten – benannt nach dem musikalischen Begriff "Kanon" –, die den horizontalen Informationsfluss zwischen benachbarten Token fördern. Canon-Layer berechnen gewichtete Summen benachbarter Token-Repräsentationen und lassen sich nahtlos in Transformer-, Linear-Attention-, State-Space-Modelle oder jede Sequenzarchitektur integrieren. Wir präsentieren 12 zentrale Ergebnisse. Dazu gehört, wie Canon-Layers die Denktiefe (z.B. um das 2-fache), die Denkbreite, die Wissensmanipulation usw. verbessern. Sie befähigen schwache Architekturen wie NoPE, mit RoPE gleichzuziehen, und Linear-Attention-Modelle, mit state-of-the-art linearen Modellen wie Mamba2/GDN zu konkurrieren – validiert sowohl durch synthetische Aufgaben als auch durch reales Vortraining im akademischen Maßstab. Dieser synthetische Experimentierraum bietet einen wirtschaftlichen, prinzipienbasierten Weg, um grundlegende Modellfähigkeiten zu isolieren, die in akademischen Maßstäben oft verborgen bleiben. Ausgestattet mit unbegrenzten hochwertigen Daten, könnte er sogar VORHERSAGEN, wie sich zukünftige Architekturen verhalten werden, wenn sich Trainingspipelines verbessern – z.B. durch bessere Datenkuratierung oder RL-basiertes Post-Training – und so tieferes Schließen und hierarchisches Inferieren freisetzen.

English

Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.

Physik der Sprachmodelle: Teil 4.1, Architekturdesign und die Magie der Kanonischen Schichten

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

papers.abstract

Support