언어 모델의 물리학: Part 4.1, 아키텍처 설계와 정규 레이어의 마법
Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers
December 19, 2025
저자: Zeyuan Allen-Zhu
cs.AI
초록
언어 모델의 아키텍처적 차이를 이해하는 것은 특히 학술 규모의 사전 학습(예: 13억 개의 매개변수, 1000억 개의 토큰)에서 결과가 종종 노이즈와 무작위성에 의해 좌우되기 때문에 어려운 과제입니다. 이를 극복하기 위해, 우리는 핵심 모델 능력을 분리하고 평가하는 통제된 합성 사전 학습 작업을 도입합니다. 이 프레임워크 안에서 우리는 CANON LAYERS를 발견했습니다. 이는 음악 용어인 "카논(canon)"에서 이름을 딴, 인접한 토큰들 간의 수평적 정보 흐름을 촉진하는 경량 아키텍처 구성 요소입니다. 캐논 레이어는 인근 토큰 표현들의 가중 합을 계산하며 Transformer, 선형 어텐션, 상태-공간 모델 또는 어떤 시퀀스 아키텍처에도 원활하게 통합됩니다.
우리는 12가지 핵심 결과를 제시합니다. 여기에는 캐논 레이어가 추론 깊이(예: 2배 향상), 추론 폭, 지식 조작 등을 어떻게 향상시키는지가 포함됩니다. 이 레이어는 NoPE와 같은 약한 아키텍처를 RoPE 수준으로 끌어올리고, 선형 어텐션을 Mamba2/GDN과 같은 SOTA 선형 모델에 필적하는 수준으로 끌어올립니다. 이는 합성 작업과 실제 학술 규모 사전 학습을 통해 모두 검증되었습니다. 이 합성 실험 환경은 학술 규모에서는 종종 가려지는 핵심 모델 능력을 분리하는 경제적이고 원칙적인 경로를 제공합니다. 무한한 고품질 데이터를 바탕으로 한다면, 이 환경은 향후 아키텍처가 더 나은 데이터 큐레이션이나 RL 기반 사후 학습과 같이 학습 파이프라인이 개선됨에 따라 어떻게 행동할지 예측(PREDICT)할 수도 있습니다. 이를 통해 더 깊은 추론과 계층적 추론이 가능해질 수 있습니다.
English
Understanding architectural differences in language models is challenging, especially at academic-scale pretraining (e.g., 1.3B parameters, 100B tokens), where results are often dominated by noise and randomness. To overcome this, we introduce controlled synthetic pretraining tasks that isolate and evaluate core model capabilities. Within this framework, we discover CANON LAYERS: lightweight architectural components -- named after the musical term "canon" -- that promote horizontal information flow across neighboring tokens. Canon layers compute weighted sums of nearby token representations and integrate seamlessly into Transformers, linear attention, state-space models, or any sequence architecture.
We present 12 key results. This includes how Canon layers enhance reasoning depth (e.g., by 2times), reasoning breadth, knowledge manipulation, etc. They lift weak architectures like NoPE to match RoPE, and linear attention to rival SOTA linear models like Mamba2/GDN -- validated both through synthetic tasks and real-world academic-scale pretraining. This synthetic playground offers an economical, principled path to isolate core model capabilities often obscured at academic scales. Equipped with infinite high-quality data, it may even PREDICT how future architectures will behave as training pipelines improve -- e.g., through better data curation or RL-based post-training -- unlocking deeper reasoning and hierarchical inference.