Neubetrachtung des schichtübergreifenden Informationsroutings in Diffusions-Transformern

Zusammenfassung

Diffusionstransformatoren (DiTs) haben sich als De-facto-Rückgrat der modernen visuellen Generierung etabliert, und nahezu jede wesentliche Designachse – Tokenisierung, Aufmerksamkeit, Konditionierung, Ziele und latente Autoencoder – wurde umfassend überarbeitet. Der Reststrom, der steuert, wie sich Informationen über die Schichten hinweg ansammeln, wurde jedoch direkt vom ursprünglichen Transformer übernommen. In diesem Artikel präsentieren wir eine systematische empirische Analyse des schichtübergreifenden Informationsflusses in DiTs, gemeinsam entlang der Tiefe und des Entrauschungszeitschritts, und identifizieren drei konkrete Symptome der traditionellen residualen Addition: eine monotone Zunahme der Vorwärtsmagnitude, ein starkes Abklingen des Rückwärtsgradienten und eine ausgeprägte blockweise Redundanz. Motiviert durch diese Diagnose schlagen wir Diffusion-Adaptive Routing (DAR) vor, einen Drop-in-Ersatz für das Residuum, der eine lernbare, zeitschrittadaptive und nicht inkrementelle Aggregation über die Historie der Sublayer-Ausgaben durchführt. Darüber hinaus ist das vorgeschlagene DAR mit vielen modernen Methoden zur Verbesserung von Transformatoren kompatibel, wie etwa REPA. Auf ImageNet 256×256 verbessert DAR SiT-XL/2 um 2,11 FID (7,56 gegenüber 9,67) und erreicht die konvergierte Qualität der Basislinie mit 8,75-fach weniger Trainingsiterationen. In Kombination mit REPA ergibt sich eine 2-fache Trainingsbeschleunigung in der frühen Phase, was darauf hindeutet, dass das schichtübergreifende Informationsrouting eine wenig erforschte Designachse in der Diffusionsmodellierung darstellt, die orthogonal zu bestehenden Repräsentationsabgleichszielen operiert. Über das Vortraining hinaus kann DAR auch während der Feinanpassungsphase von großskaligen T2I-Modellen angewendet werden und bewahrt hochfrequente Details während der Distribution-Matching-Destillation.

English

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (DAR), a drop-in residual replacement that performs learnable, timestep-adaptive, and non-incremental aggregation over the history of sublayer outputs. Moreover, the proposed DAR is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet 256times256, DAR improves SiT-XL/2 by 2.11 FID (7.56 vs.\ 9.67) and matches the baseline's converged quality with 8.75times fewer training iterations. Stacked on top of REPA, it yields a 2times training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, DAR can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.