Condizione Spettrale per μP nello Scaling Larghezza-Profondità

Abstract

I modelli fondativi generativi vengono sempre più scalati sia in ampiezza che in profondità, ponendo sfide significative per l'apprendimento stabile delle caratteristiche e il trasferimento affidabile degli iperparametri (HP) tra diverse dimensioni del modello. Sebbene la parametrizzazione ad aggiornamento massimo (μP) abbia fornito una soluzione principiata a entrambi i problemi per la scalatura in ampiezza, le estensioni esistenti al regime di scalatura congiunta ampiezza-profondità rimangono frammentate, specifiche per architettura e ottimizzatore, e spesso si basano su teorie tecnicamente complesse. In questo lavoro, sviluppiamo una semplice e unificata cornice spettrale per la μP nella scalatura congiunta ampiezza-profondità. Considerando reti residue con profondità di blocco variabili, introduciamo prima una condizione spettrale μP che caratterizza precisamente come le norme dei pesi e i loro aggiornamenti per passo dovrebbero scalare con ampiezza e profondità, unificando formulazioni μP precedentemente disparate come casi speciali. Basandoci su questa condizione, deriviamo poi una ricetta generale per implementare la μP su un'ampia classe di ottimizzatori mappando i vincoli spettrali a parametrizzazioni concrete degli HP. Questo approccio non solo recupera le formulazioni μP esistenti (ad esempio, per SGD e AdamW) ma si estende naturalmente anche a una gamma più ampia di ottimizzatori. Infine, esperimenti su modelli linguistici in stile GPT-2 dimostrano che la proposta condizione spettrale μP preserva l'apprendimento stabile delle caratteristiche e consente un trasferimento robusto degli HP nella scalatura ampiezza-profondità.

English

Generative foundation models are increasingly scaled in both width and depth, posing significant challenges for stable feature learning and reliable hyperparameter (HP) transfer across model sizes. While maximal update parameterization (μP) has provided a principled solution to both problems for width scaling, existing extensions to the joint width-depth scaling regime remain fragmented, architecture- and optimizer-specific, and often rely on technically involved theories. In this work, we develop a simple and unified spectral framework for μP under joint width-depth scaling. Considering residual networks of varying block depths, we first introduce a spectral μP condition that precisely characterizes how the norms of weights and their per-step updates should scale with width and depth, unifying previously disparate μP formulations as special cases. Building on this condition, we then derive a general recipe for implementing μP across a broad class of optimizers by mapping the spectral constraints to concrete HP parameterizations. This approach not only recovers existing μP formulations (e.g., for SGD and AdamW) but also naturally extends to a wider range of optimizers. Finally, experiments on GPT-2 style language models demonstrate that the proposed spectral μP condition preserves stable feature learning and enables robust HP transfer under width-depth scaling.

Condizione Spettrale per μP nello Scaling Larghezza-Profondità

Spectral Condition for μP under Width-Depth Scaling

Abstract

Support