ChatPaper.aiChatPaper

μP의 너비-깊이 스케일링에 대한 스펙트럼 조건

Spectral Condition for μP under Width-Depth Scaling

February 28, 2026
저자: Chenyu Zheng, Rongzhen Wang, Xinyu Zhang, Chongxuan Li
cs.AI

초록

생성 기반 파운데이션 모델은 너비와 깊이 측면에서 점점 더 확장되면서 안정적인 특징 학습과 다양한 모델 크기 간의 신뢰할 수 있는 하이퍼파라미터 전이에 상당한 과제를 제기하고 있습니다. 최대 업데이트 파라미터화(μP)가 너비 스케일링에 대한 두 문제에 대한 원리 기반 해법을 제공한 반면, 너비-깊이 통합 스케일링 영역으로의 기존 확장은 여전히 파편화되어 있으며 특정 아키텍처와 옵티마이저에 의존적이고, 종종 기술적으로 복잡한 이론에 기반합니다. 본 연구에서는 너비-깊이 통합 스케일링 하에서 μP를 위한 간단하고 통합된 스펙트럼 프레임워크를 개발합니다. 다양한 블록 깊이를 가진 잔차 네트워크를 고려하여, 우리는 먼저 가중치의 노름과 단계별 업데이트가 너비와 깊이에 따라 어떻게 스케일링되어야 하는지를 정확히 규정하는 스펙트럼 μP 조건을 소개하며, 기존의 분리된 μP 공식들을 특수 사례로 통합합니다. 이 조건을 바탕으로, 우리는 스펙트럼 제약을 구체적인 HP 파라미터화로 매핑함으로써 광범위한 옵티마이저 클래스에 걸쳐 μP를 구현하기 위한 일반적인 방법론을 유도합니다. 이 접근법은 기존 μP 공식(예: SGD 및 AdamW용)을 복원할 뿐만 아니라 더 넓은 범위의 옵티마이저로 자연스럽게 확장됩니다. 마지막으로, GPT-2 스타일 언어 모델에 대한 실험을 통해 제안된 스펙트럼 μP 조건이 안정적인 특징 학습을 유지하고 너비-깊이 스케일링 하에서 강력한 HP 전이를 가능하게 함을 입증합니다.
English
Generative foundation models are increasingly scaled in both width and depth, posing significant challenges for stable feature learning and reliable hyperparameter (HP) transfer across model sizes. While maximal update parameterization (μP) has provided a principled solution to both problems for width scaling, existing extensions to the joint width-depth scaling regime remain fragmented, architecture- and optimizer-specific, and often rely on technically involved theories. In this work, we develop a simple and unified spectral framework for μP under joint width-depth scaling. Considering residual networks of varying block depths, we first introduce a spectral μP condition that precisely characterizes how the norms of weights and their per-step updates should scale with width and depth, unifying previously disparate μP formulations as special cases. Building on this condition, we then derive a general recipe for implementing μP across a broad class of optimizers by mapping the spectral constraints to concrete HP parameterizations. This approach not only recovers existing μP formulations (e.g., for SGD and AdamW) but also naturally extends to a wider range of optimizers. Finally, experiments on GPT-2 style language models demonstrate that the proposed spectral μP condition preserves stable feature learning and enables robust HP transfer under width-depth scaling.
PDF141March 4, 2026