Repensando el enrutamiento de información entre capas en los Transformers de difusión

Resumen

Los Transformadores de Difusión (DiTs) se han convertido en la columna vertebral de facto de la generación visual moderna, y casi todos los ejes principales de su diseño —tokenización, atención, condicionamiento, objetivos y autoencoders latentes— han sido revisados exhaustivamente. Sin embargo, el flujo residual que gobierna cómo se acumula la información a través de las capas se ha heredado directamente del Transformador original. En este artículo, presentamos un análisis empírico sistemático del flujo de información entre capas en los DiTs, considerando conjuntamente la profundidad y el paso temporal de eliminación de ruido, e identificamos tres síntomas concretos de la adición residual tradicional: inflación monotónica de la magnitud hacia adelante, decaimiento pronunciado del gradiente hacia atrás y redundancia pronunciada a nivel de bloques. Motivados por este diagnóstico, proponemos el Enrutamiento Adaptativo para la Difusión (DAR), un reemplazo residual directo que realiza una agregación aprendible, adaptativa al paso temporal y no incremental sobre el historial de salidas de las subcapas. Además, el DAR propuesto es compatible con muchos métodos modernos de mejora de Transformadores, como REPA. En ImageNet 256×256, DAR mejora SiT-XL/2 en 2,11 de FID (7,56 frente a 9,67) y alcanza la calidad convergida del modelo base con 8,75 veces menos iteraciones de entrenamiento. Al aplicarse sobre REPA, proporciona una aceleración del entrenamiento de 2× en la etapa inicial, lo que sugiere que el enrutamiento de información entre capas es un eje de diseño poco explorado en el modelado de difusión, que opera de manera ortogonal a los objetivos existentes de alineación de representaciones. Más allá del preentrenamiento, DAR también puede aplicarse durante la etapa de ajuste fino de modelos T2I a gran escala y preserva los detalles de alta frecuencia durante la Destilación por Emparejamiento de Distribuciones.

English

Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (DAR), a drop-in residual replacement that performs learnable, timestep-adaptive, and non-incremental aggregation over the history of sublayer outputs. Moreover, the proposed DAR is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet 256times256, DAR improves SiT-XL/2 by 2.11 FID (7.56 vs.\ 9.67) and matches the baseline's converged quality with 8.75times fewer training iterations. Stacked on top of REPA, it yields a 2times training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, DAR can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.