Repensando o Roteamento de Informação entre Camadas em Transformers de Difusão

Resumo

Transformers de Difusão (DiTs) tornaram-se uma espinha dorsal de facto da geração visual moderna, e praticamente todos os eixos principais do seu design — tokenização, atenção, condicionamento, objetivos e autoencoders latentes — foram extensivamente revisados. O fluxo residual que governa como a informação se acumula entre camadas, no entanto, foi diretamente herdado do Transformer original. Neste artigo, apresentamos uma análise empírica sistemática do fluxo de informação entre camadas em DiTs, conjuntamente ao longo da profundidade e do passo temporal de remoção de ruído, e identificamos três sintomas concretos da adição residual tradicional: inflação monotônica da magnitude direta, decaimento acentuado do gradiente reverso e redundância pronunciada entre blocos. Motivados por esse diagnóstico, propomos o Roteamento Adaptativo para Difusão (DAR), um substituto residual direto que realiza agregação aprendível, adaptativa ao passo temporal e não incremental sobre o histórico das saídas das subcamadas. Além disso, o DAR proposto é compatível com muitos métodos modernos de aprimoramento de Transformer, como o REPA. No ImageNet 256×256, o DAR melhora o SiT-XL/2 em 2,11 FID (7,56 vs. 9,67) e iguala a qualidade convergida da linha de base com 8,75 vezes menos iterações de treinamento. Quando combinado com o REPA, proporciona uma aceleração de 2 vezes no treinamento durante o estágio inicial, sugerindo que o roteamento de informação entre camadas é um eixo de design subexplorado na modelagem de difusão, operando de forma ortogonal aos objetivos existentes de alinhamento de representações. Além do pré-treinamento, o DAR também pode ser aplicado durante o estágio de ajuste fino de modelos T2I em grande escala e preserva detalhes de alta frequência durante a Destilação por Correspondência de Distribuição.

English

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (DAR), a drop-in residual replacement that performs learnable, timestep-adaptive, and non-incremental aggregation over the history of sublayer outputs. Moreover, the proposed DAR is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet 256times256, DAR improves SiT-XL/2 by 2.11 FID (7.56 vs.\ 9.67) and matches the baseline's converged quality with 8.75times fewer training iterations. Stacked on top of REPA, it yields a 2times training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, DAR can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.