Heroverwegen van Cross-Laag Informatierouting in Diffusietransformers

Samenvatting

Diffusietransformatoren (DiTs) zijn een de facto backbone geworden voor moderne visuele generatie, en vrijwel elke belangrijke ontwerpaspect — tokenisatie, aandacht, conditionering, doelstellingen en latente auto-encoders — is uitgebreid herzien. De reststroom die bepaalt hoe informatie over lagen heen accumuleert, is echter rechtstreeks overgenomen van de oorspronkelijke Transformer. In dit artikel presenteren we een systematische empirische analyse van cross-laag informatie stroom in DiTs, gezamenlijk over diepte en denoising-tijdsstap, en identificeren we drie concrete symptomen van traditionele resterende optelling, namelijk monotone voorwaartse magnitude-inflatie, scherpe achterwaartse gradiëntafname en uitgesproken blokgewijze redundantie. Gemotiveerd door deze diagnose stellen we Diffusion-Adaptive Routing (DAR) voor, een inplugbare restvervanging die leerbare, tijdsstapadaptieve en niet-incrementele aggregatie uitvoert over de geschiedenis van sublaaguitgangen. Bovendien is de voorgestelde DAR compatibel met veel moderne Transformer-verbeteringsmethoden, zoals REPA. Op ImageNet 256×256 verbetert DAR SiT-XL/2 met 2,11 FID (7,56 vs. 9,67) en evenaart het de geconvergeerde kwaliteit van de baseline met 8,75× minder trainingsiteraties. Gestapeld bovenop REPA levert het een 2× trainingsversnelling in de vroege fase, wat suggereert dat cross-laag informatie routing een onderbelichte ontwerpas is in diffusiemodellering, die orthogonal werkt ten opzichte van bestaande representatie-uitlijning doelstellingen. Naast pre-training kan DAR ook worden toegepast tijdens de fijnafstemmingsfase van grootschalige T2I-modellen en behoudt het hoogfrequente details tijdens Distribution Matching Distillation.

English

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (DAR), a drop-in residual replacement that performs learnable, timestep-adaptive, and non-incremental aggregation over the history of sublayer outputs. Moreover, the proposed DAR is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet 256times256, DAR improves SiT-XL/2 by 2.11 FID (7.56 vs.\ 9.67) and matches the baseline's converged quality with 8.75times fewer training iterations. Stacked on top of REPA, it yields a 2times training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, DAR can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.