Mean Mode Screaming: Mittelwert-Varianz-Split-Residuen für 1000-schichtige Diffusions-Transformer

Zusammenfassung

Das Skalieren von Diffusion Transformers (DiTs) auf hunderte von Schichten führt eine strukturelle Schwachstelle ein: Netzwerke können in einen stillen, mittelwertdominierten Kollapszustand geraten, der Token-Repräsentationen homogenisiert und zentrierte Variation unterdrückt. Durch mechanistische Prüfung isolieren wir das Auslöserereignis dieses Kollapses als 'Mean Mode Screaming' (MMS). MMS kann selbst dann auftreten, wenn das Training stabil erscheint, mit einem mittelwertkohärenten Rückwärtsschock auf residuale Schreiber, der tiefe residuale Zweige öffnet und das Netzwerk in einen mittelwertdominierten Zustand treibt. Wir zeigen, dass dieses Verhalten durch eine exakte Zerlegung dieser Gradienten in mittelwertkohärente und zentrierte Komponenten angetrieben wird, verstärkt durch die strukturelle Unterdrückung von Attention-Logit-Gradienten durch den Nullraum der Softmax-Jacobi-Matrix, sobald Werte homogenisiert sind. Um dem entgegenzuwirken, schlagen wir Mean-Variance Split (MV-Split)-Residuen vor, die ein separat gewonnenes zentriertes residuelles Update mit einem leckenden Hauptstamm-Mittelwertsersatz kombinieren. Auf einem 400-schichtigen Einzelstrom-DiT verhindert MV-Split den divergenten Kollaps, der die nicht stabilisierte Baseline zum Absturz bringt; es folgt dicht an der Vor-Kollaps-Trajektorie der Baseline, während es über den gesamten Zeitplan wesentlich besser bleibt als token-isotrope Gating-Methoden wie LayerScale. Schließlich präsentieren wir einen 1000-schichtigen DiT als Skalierungsvalidierungslauf an Grenzskalen, der belegt, dass die Architektur bei extremer Tiefe stabil trainierbar bleibt.

English

Scaling Diffusion Transformers (DiTs) to hundreds of layers introduces a structural vulnerability: networks can enter a silent, mean-dominated collapse state that homogenizes token representations and suppresses centered variation. Through mechanistic auditing, we isolate the trigger event of this collapse as Mean Mode Screaming (MMS). MMS can occur even when training appears stable, with a mean-coherent backward shock on residual writers that opens deep residual branches and drives the network into a mean-dominated state. We show this behavior is driven by an exact decomposition of these gradients into mean-coherent and centered components, compounded by the structural suppression of attention-logit gradients through the null space of the Softmax Jacobian once values homogenize. To address this, we propose Mean-Variance Split (MV-Split) Residuals, which combine a separately gained centered residual update with a leaky trunk-mean replacement. On a 400-layer single-stream DiT, MV-Split prevents the divergent collapse that crashes the un-stabilized baseline; it tracks close to the baseline's pre-crash trajectory while remaining substantially better than token-isotropic gating methods such as LayerScale across the full schedule. Finally, we present a 1000-layer DiT as a scale-validation run at boundary scales, establishing that the architecture remains stably trainable at extreme depth.

Mean Mode Screaming: Mittelwert-Varianz-Split-Residuen für 1000-schichtige Diffusions-Transformer

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Zusammenfassung

Support