Sprint : Fusion Résiduelle Éparse-Dense pour des Transformers de Diffusion Efficaces
Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
October 24, 2025
papers.authors: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI
papers.abstract
Les Transformers de Diffusion (DiTs) offrent des performances génératives de pointe, mais leur coût d'entraînement quadratique avec la longueur de séquence rend le pré-entraînement à grande échelle prohibitif. L'abandon de tokens peut réduire ce coût, mais les stratégies naïves dégradent les représentations, et les méthodes existantes sont soit paramétriquement lourdes, soit inefficaces à des taux d'abandon élevés. Nous présentons SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, une méthode simple qui permet un abandon agressif de tokens (jusqu'à 75 %) tout en préservant la qualité. SPRINT exploite les rôles complémentaires des couches superficielles et profondes : les premières traitent tous les tokens pour capturer les détails locaux, les couches plus profondes opèrent sur un sous-ensemble sparse pour réduire les calculs, et leurs sorties sont fusionnées via des connexions résiduelles. L'entraînement suit un calendrier en deux étapes : un long pré-entraînement masqué pour l'efficacité, suivi d'un micro réglage avec tous les tokens pour combler l'écart entraînement-inférence. Sur ImageNet-1K 256x256, SPRINT réalise une économie d'entraînement de 9,8x avec des FID/FDD comparables, et à l'inférence, son *Path-Drop Guidance* (PDG) réduit de près de moitié les FLOPs tout en améliorant la qualité. Ces résultats établissent SPRINT comme une solution simple, efficace et générale pour l'entraînement efficace des DiTs.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance
but their quadratic training cost with sequence length makes large-scale
pretraining prohibitively expensive. Token dropping can reduce training cost,
yet na\"ive strategies degrade representations, and existing methods are either
parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense
Residual Fusion for Efficient Diffusion Transformers, a simple method that
enables aggressive token dropping (up to 75%) while preserving quality. SPRINT
leverages the complementary roles of shallow and deep layers: early layers
process all tokens to capture local detail, deeper layers operate on a sparse
subset to cut computation, and their outputs are fused through residual
connections. Training follows a two-stage schedule: long masked pre-training
for efficiency followed by short full-token fine-tuning to close the
train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training
savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG)
nearly halves FLOPs while improving quality. These results establish SPRINT as
a simple, effective, and general solution for efficient DiT training.