ChatPaper.aiChatPaper

言語モデルの物理学:第4.1部 アーキテクチャ設計と正準層の魔法

Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

December 19, 2025
著者: Zeyuan Allen-Zhu
cs.AI

要旨

言語モデルのアーキテクチャ的差異を理解することは困難であり、特に学術規模の事前学習(例:13億パラメータ、1000億トークン)では、結果がノイズやランダム性に支配されがちである。この課題を克服するため、我々は核心的なモデル能力を分離・評価する制御された合成的事前学習タスクを導入する。この枠組み内で、我々は「カノン層」を発見した。これは音楽用語の「カノン」に由来する軽量なアーキテクチャ構成要素であり、隣接トークン間の水平的情報フローを促進する。カノン層は近傍トークン表現の重み付き和を計算し、Transformer、線形アテンション、状態空間モデル、あるいは任意のシーケンスアーキテクチャにシームレスに統合可能である。 我々は12の主要な結果を示す。これには、カノン層が推論深度(例:2倍向上)、推論広度、知識操作などを如何に強化するかが含まれる。これらは、NoPEのような弱いアーキテクチャをRoPEに匹敵する水準まで引き上げ、線形アテンションをMamba2/GDNのようなSOTA線形モデルと競合するまで強化する——これは合成的タスクと実世界の学術規模事前学習の両方で検証済みである。この合成的実験場は、学術規模では曖昧になりがちな核心的モデル能力を分離する、経済的かつ原理的な道筋を提供する。無限の高品質データを備えれば、将来のアーキテクチャが、データキュレーションの改善やRLベースの学習後処理など、学習パイプラインの進化に伴い如何に振る舞うかを「予測」することさえ可能であり、より深い推論と階層的推論を解き放つ可能性を秘めている。
English
Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture. We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.
PDF131December 23, 2025