Cri du mode moyen : Résidus de séparation moyenne–variance pour des Transformers de diffusion à 1000 couches

Résumé

L'augmentation de l'échelle des Transformers de Diffusion (DiTs) à des centaines de couches introduit une vulnérabilité structurelle : les réseaux peuvent entrer dans un état de collapse silencieux et dominé par la moyenne, qui homogénéise les représentations des jetons et supprime la variation centrée. Grâce à un audit mécaniste, nous isolons l'événement déclencheur de ce collapse sous le nom de Mean Mode Screaming (MMS). Le MMS peut survenir même lorsque l'entraînement semble stable, avec un choc rétrograde moyenne-cohérent sur les écrivains résiduels qui ouvre les branches résiduelles profondes et conduit le réseau dans un état dominé par la moyenne. Nous montrons que ce comportement est piloté par une décomposition exacte de ces gradients en composantes moyenne-cohérente et centrée, aggravée par la suppression structurelle des gradients des logits d'attention à travers l'espace nul du Jacobien du Softmax une fois que les valeurs s'homogénéisent. Pour y remédier, nous proposons les Résidus à Séparation Moyenne-Variance (MV-Split), qui combinent une mise à jour résiduelle centrée séparément amplifiée avec un remplacement avec fuite de la moyenne du tronc. Sur un DiT à flux unique de 400 couches, MV-Split empêche le collapse divergent qui fait s'effondrer la ligne de base non stabilisée ; il suit de près la trajectoire pré-effondrement de la ligne de base tout en restant nettement meilleur que les méthodes de gating isotropes par jeton telles que LayerScale sur l'ensemble du calendrier. Enfin, nous présentons un DiT de 1000 couches comme une exécution de validation à grande échelle aux limites, établissant que l'architecture reste stablement entraînable à des profondeurs extrêmes.

English

Scaling Diffusion Transformers (DiTs) to hundreds of layers introduces a structural vulnerability: networks can enter a silent, mean-dominated collapse state that homogenizes token representations and suppresses centered variation. Through mechanistic auditing, we isolate the trigger event of this collapse as Mean Mode Screaming (MMS). MMS can occur even when training appears stable, with a mean-coherent backward shock on residual writers that opens deep residual branches and drives the network into a mean-dominated state. We show this behavior is driven by an exact decomposition of these gradients into mean-coherent and centered components, compounded by the structural suppression of attention-logit gradients through the null space of the Softmax Jacobian once values homogenize. To address this, we propose Mean-Variance Split (MV-Split) Residuals, which combine a separately gained centered residual update with a leaky trunk-mean replacement. On a 400-layer single-stream DiT, MV-Split prevents the divergent collapse that crashes the un-stabilized baseline; it tracks close to the baseline's pre-crash trajectory while remaining substantially better than token-isotropic gating methods such as LayerScale across the full schedule. Finally, we present a 1000-layer DiT as a scale-validation run at boundary scales, establishing that the architecture remains stably trainable at extreme depth.

Cri du mode moyen : Résidus de séparation moyenne–variance pour des Transformers de diffusion à 1000 couches

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Résumé

Support