Spektrale Bedingung für μP unter Skalierung von Breite und Tiefe

Zusammenfassung

Generative Foundation-Modelle werden zunehmend sowohl in der Breite als auch in der Tiefe skaliert, was erhebliche Herausforderungen für stabiles Feature-Learning und zuverlässigen Hyperparameter- (HP-) Transfer über verschiedene Modellgrößen hinweg darstellt. Während die Maximale-Update-Parametrisierung (μP) eine prinzipielle Lösung für beide Probleme bei der Breitenskalierung bietet, bleiben bestehende Erweiterungen auf das gemeinsame Breite-Tiefe-Skalierungsregime fragmentiert, architektur- und optimiererspezifisch und stützen sich oft auf technisch anspruchsvolle Theorien. In dieser Arbeit entwickeln wir einen einfachen und vereinheitlichten spektralen Rahmen für μP unter gemeinsamer Breite-Tiefe-Skalierung. Unter Betrachtung von Residual-Netzen mit variierenden Blocktiefen führen wir zunächst eine spektrale μP-Bedingung ein, die präzise charakterisiert, wie sich die Normen der Gewichte und ihrer Updates pro Schritt mit Breite und Tiefe skalieren sollten und dabei zuvor disparate μP-Formulierungen als Spezialfälle vereinheitlicht. Aufbauend auf dieser Bedingung leiten wir dann ein allgemeines Rezept zur Implementierung von μP für eine breite Klasse von Optimierern ab, indem wir die spektralen Einschränkungen auf konkrete HP-Parametrisierungen abbilden. Dieser Ansatz reproduziert nicht nur bestehende μP-Formulierungen (z.B. für SGD und AdamW), sondern erstreckt sich natürlicherweise auch auf eine größere Bandbreite von Optimierern. Experimente an GPT-2-artigen Sprachmodellen demonstrieren schließlich, dass die vorgeschlagene spektrale μP-Bedingung stabiles Feature-Learning bewahrt und einen robusten HP-Transfer unter Breite-Tiefe-Skalierung ermöglicht.

English

Generative foundation models are increasingly scaled in both width and depth, posing significant challenges for stable feature learning and reliable hyperparameter (HP) transfer across model sizes. While maximal update parameterization (μP) has provided a principled solution to both problems for width scaling, existing extensions to the joint width-depth scaling regime remain fragmented, architecture- and optimizer-specific, and often rely on technically involved theories. In this work, we develop a simple and unified spectral framework for μP under joint width-depth scaling. Considering residual networks of varying block depths, we first introduce a spectral μP condition that precisely characterizes how the norms of weights and their per-step updates should scale with width and depth, unifying previously disparate μP formulations as special cases. Building on this condition, we then derive a general recipe for implementing μP across a broad class of optimizers by mapping the spectral constraints to concrete HP parameterizations. This approach not only recovers existing μP formulations (e.g., for SGD and AdamW) but also naturally extends to a wider range of optimizers. Finally, experiments on GPT-2 style language models demonstrate that the proposed spectral μP condition preserves stable feature learning and enables robust HP transfer under width-depth scaling.

Spektrale Bedingung für μP unter Skalierung von Breite und Tiefe

Spectral Condition for μP under Width-Depth Scaling

Zusammenfassung

Support