Sprint: Fusão Residual Esparso-Densa para Transformadores de Difusão Eficientes
Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
October 24, 2025
Autores: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI
Resumo
Os Diffusion Transformers (DiTs) oferecem desempenho generativo de última geração, mas o seu custo quadrático de treinamento em relação ao comprimento da sequência torna o pré-treinamento em larga escala proibitivamente caro. O descarte de *tokens* pode reduzir o custo de treinamento, mas estratégias ingênuas degradam as representações, e os métodos existentes são ou muito parametrizados ou falham em altas taxas de descarte. Apresentamos o SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, um método simples que permite um descarte agressivo de *tokens* (até 75%) enquanto preserva a qualidade. O SPRINT aproveita os papéis complementares das camadas rasas e profundas: as camadas iniciais processam todos os *tokens* para capturar detalhes locais, as camadas mais profundas operam em um subconjunto esparso para reduzir a computação, e as suas saídas são fundidas através de conexões residuais. O treinamento segue um cronograma de dois estágios: um longo pré-treinamento mascarado para eficiência, seguido por um curto ajuste fino com todos os *tokens* para fechar a lacuna entre treinamento e inferência. No ImageNet-1K 256x256, o SPRINT alcança uma economia de treinamento de 9,8x com FID/FDD comparáveis, e na inferência, sua *Path-Drop Guidance* (PDG) reduz quase pela metade os FLOPS enquanto melhora a qualidade. Estes resultados estabelecem o SPRINT como uma solução simples, eficaz e geral para o treinamento eficiente de DiTs.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance
but their quadratic training cost with sequence length makes large-scale
pretraining prohibitively expensive. Token dropping can reduce training cost,
yet na\"ive strategies degrade representations, and existing methods are either
parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense
Residual Fusion for Efficient Diffusion Transformers, a simple method that
enables aggressive token dropping (up to 75%) while preserving quality. SPRINT
leverages the complementary roles of shallow and deep layers: early layers
process all tokens to capture local detail, deeper layers operate on a sparse
subset to cut computation, and their outputs are fused through residual
connections. Training follows a two-stage schedule: long masked pre-training
for efficiency followed by short full-token fine-tuning to close the
train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training
savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG)
nearly halves FLOPs while improving quality. These results establish SPRINT as
a simple, effective, and general solution for efficient DiT training.