Крик среднего и моды: остатки разделения среднего и дисперсии для 1000-слойных диффузионных трансформеров

Аннотация

Масштабирование диффузионных трансформеров (DiT) до сотен слоёв вносит структурную уязвимость: сети могут переходить в скрытое коллапсное состояние, доминируемое средним значением, которое гомогенизирует токеновые представления и подавляет центрированную вариативность. Путем механистического аудита мы выделяем триггерное событие этого коллапса как «Крик Среднего Режима» (Mean Mode Screaming, MMS). MMS может происходить даже при видимо стабильном обучении, вызывая когерентный по среднему обратный шок на остаточных писателях, который открывает глубокие остаточные ветви и приводит сеть в состояние, доминируемое средним. Мы показываем, что такое поведение обусловлено точной декомпозицией этих градиентов на когерентные по среднему и центрированные компоненты, усугубляемой структурным подавлением градиентов логитов внимания через нуль-пространство якобиана Softmax после гомогенизации значений. Для решения этой проблемы мы предлагаем остаточные связи с разделением среднего и дисперсии (Mean-Variance Split Residuals, MV-Split), которые сочетают отдельно масштабированное центрированное остаточное обновление с заменой ствола с утечкой среднего значения. В 400-слойном однопоточном DiT MV-Split предотвращает дивергентный коллапс, который разрушает нестабилизированный базовый вариант; он близко следует траектории базового варианта до сбоя, оставаясь при этом существенно лучше методов стробирования, изотропных по токенам, таких как LayerScale, на всем протяжении обучения. Наконец, мы представляем 1000-слойный DiT как валидационный запуск масштабирования на граничных масштабах, подтверждающий, что архитектура остается стабильно обучаемой при экстремальной глубине.

English

Scaling Diffusion Transformers (DiTs) to hundreds of layers introduces a structural vulnerability: networks can enter a silent, mean-dominated collapse state that homogenizes token representations and suppresses centered variation. Through mechanistic auditing, we isolate the trigger event of this collapse as Mean Mode Screaming (MMS). MMS can occur even when training appears stable, with a mean-coherent backward shock on residual writers that opens deep residual branches and drives the network into a mean-dominated state. We show this behavior is driven by an exact decomposition of these gradients into mean-coherent and centered components, compounded by the structural suppression of attention-logit gradients through the null space of the Softmax Jacobian once values homogenize. To address this, we propose Mean-Variance Split (MV-Split) Residuals, which combine a separately gained centered residual update with a leaky trunk-mean replacement. On a 400-layer single-stream DiT, MV-Split prevents the divergent collapse that crashes the un-stabilized baseline; it tracks close to the baseline's pre-crash trajectory while remaining substantially better than token-isotropic gating methods such as LayerScale across the full schedule. Finally, we present a 1000-layer DiT as a scale-validation run at boundary scales, establishing that the architecture remains stably trainable at extreme depth.

Крик среднего и моды: остатки разделения среднего и дисперсии для 1000-слойных диффузионных трансформеров

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Аннотация

Support