Sprint: Fusão Residual Esparso-Densa para Transformadores de Difusão Eficientes

Resumo

Os Diffusion Transformers (DiTs) oferecem desempenho generativo de última geração, mas o seu custo quadrático de treinamento em relação ao comprimento da sequência torna o pré-treinamento em larga escala proibitivamente caro. O descarte de *tokens* pode reduzir o custo de treinamento, mas estratégias ingênuas degradam as representações, e os métodos existentes são ou muito parametrizados ou falham em altas taxas de descarte. Apresentamos o SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, um método simples que permite um descarte agressivo de *tokens* (até 75%) enquanto preserva a qualidade. O SPRINT aproveita os papéis complementares das camadas rasas e profundas: as camadas iniciais processam todos os *tokens* para capturar detalhes locais, as camadas mais profundas operam em um subconjunto esparso para reduzir a computação, e as suas saídas são fundidas através de conexões residuais. O treinamento segue um cronograma de dois estágios: um longo pré-treinamento mascarado para eficiência, seguido por um curto ajuste fino com todos os *tokens* para fechar a lacuna entre treinamento e inferência. No ImageNet-1K 256x256, o SPRINT alcança uma economia de treinamento de 9,8x com FID/FDD comparáveis, e na inferência, sua *Path-Drop Guidance* (PDG) reduz quase pela metade os FLOPS enquanto melhora a qualidade. Estes resultados estabelecem o SPRINT como uma solução simples, eficaz e geral para o treinamento eficiente de DiTs.

English

Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.

Sprint: Fusão Residual Esparso-Densa para Transformadores de Difusão Eficientes

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

Resumo

Support