Sprint: Fusione Residua Sparsa-Densa per Trasformatori di Diffusione Efficienti
Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
October 24, 2025
Autori: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI
Abstract
I Diffusion Transformer (DiT) offrono prestazioni generative all'avanguardia, ma il loro costo quadratico di addestramento rispetto alla lunghezza della sequenza rende estremamente costoso il pre-training su larga scala. L'eliminazione selettiva di token (token dropping) può ridurre i costi, tuttavia strategie naive degradano le rappresentazioni, e i metodi esistenti sono o parametrizzati in modo pesante o falliscono con alti rapporti di scarto. Presentiamo SPRINT, Sparse–Dense Residual Fusion for Efficient Diffusion Transformers, un metodo semplice che consente un'eliminazione aggressiva dei token (fino al 75%) preservando la qualità. SPRINT sfrutta i ruoli complementari degli strati superficiali e profondi: gli strati iniziali elaborano tutti i token per catturare i dettagli locali, gli strati più profondi operano su un sottoinsieme sparso per ridurre il calcolo, e i loro output vengono fusi attraverso connessioni residue. L'addestramento segue una pianificazione in due fasi: un lungo pre-training mascherato per l'efficienza, seguito da un breve fine-tuning con tutti i token per colmare il divario addestramento-inferenza. Su ImageNet-1K 256x256, SPRINT raggiunge un risparmio di addestramento di 9.8x con FID/FDD comparabili, e in inferenza, la sua Path-Drop Guidance (PDG) quasi dimezza i FLOPs migliorando al contempo la qualità. Questi risultati stabiliscono SPRINT come una soluzione semplice, efficace e generale per l'addestramento efficiente dei DiT.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance
but their quadratic training cost with sequence length makes large-scale
pretraining prohibitively expensive. Token dropping can reduce training cost,
yet na\"ive strategies degrade representations, and existing methods are either
parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense
Residual Fusion for Efficient Diffusion Transformers, a simple method that
enables aggressive token dropping (up to 75%) while preserving quality. SPRINT
leverages the complementary roles of shallow and deep layers: early layers
process all tokens to capture local detail, deeper layers operate on a sparse
subset to cut computation, and their outputs are fused through residual
connections. Training follows a two-stage schedule: long masked pre-training
for efficiency followed by short full-token fine-tuning to close the
train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training
savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG)
nearly halves FLOPs while improving quality. These results establish SPRINT as
a simple, effective, and general solution for efficient DiT training.