ChatPaper.aiChatPaper

Sprint: Sparse-Dense Residuele Fusie voor Efficiënte Diffusie Transformers

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

October 24, 2025
Auteurs: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI

Samenvatting

Diffusion Transformers (DiTs) leveren toonaangevende generatieve prestaties, maar hun kwadratische trainingskosten ten opzichte van de sequentielengte maken grootschalige voorafgaande training (pretraining) buitensporig duur. Token dropping kan de trainingskosten verlagen, maar naïeve strategieën verslechteren de representaties, en bestaande methoden zijn ofwel parameterrijk of falen bij hoge drop-ratio's. Wij presenteren SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, een eenvoudige methode die agressief token dropping (tot 75%) mogelijk maakt zonder kwaliteitsverlies. SPRINT benut de complementaire rollen van ondiepe en diepe lagen: vroege lagen verwerken alle tokens om lokale details vast te leggen, diepere lagen werken op een sparse subset om de rekenkracht te verminderen, en hun uitvoeren worden via residuele verbindingen samengevoegd (gefuseerd). De training volgt een tweefasenschema: een lange gemaskeerde voorafgaande training voor efficiëntie, gevolgd door een korte fine-tuning met alle tokens om de kloof tussen training en inferentie te dichten. Op ImageNet-1K 256x256 behaalt SPRINT een 9,8x besparing in trainingskosten met vergelijkbare FID/FDD, en tijdens de inferentie halveert de Path-Drop Guidance (PDG) de FLOPs bijna terwijl de kwaliteit verbetert. Deze resultaten positioneren SPRINT als een eenvoudige, effectieve en algemene oplossing voor efficiënte DiT-training.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.
PDF31December 31, 2025