ChatPaper.aiChatPaper

Sprint: Fusione Residua Sparsa-Densa per Trasformatori di Diffusione Efficienti

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

October 24, 2025
Autori: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI

Abstract

I Diffusion Transformer (DiT) offrono prestazioni generative all'avanguardia, ma il loro costo quadratico di addestramento rispetto alla lunghezza della sequenza rende estremamente costoso il pre-training su larga scala. L'eliminazione selettiva di token (token dropping) può ridurre i costi, tuttavia strategie naive degradano le rappresentazioni, e i metodi esistenti sono o parametrizzati in modo pesante o falliscono con alti rapporti di scarto. Presentiamo SPRINT, Sparse–Dense Residual Fusion for Efficient Diffusion Transformers, un metodo semplice che consente un'eliminazione aggressiva dei token (fino al 75%) preservando la qualità. SPRINT sfrutta i ruoli complementari degli strati superficiali e profondi: gli strati iniziali elaborano tutti i token per catturare i dettagli locali, gli strati più profondi operano su un sottoinsieme sparso per ridurre il calcolo, e i loro output vengono fusi attraverso connessioni residue. L'addestramento segue una pianificazione in due fasi: un lungo pre-training mascherato per l'efficienza, seguito da un breve fine-tuning con tutti i token per colmare il divario addestramento-inferenza. Su ImageNet-1K 256x256, SPRINT raggiunge un risparmio di addestramento di 9.8x con FID/FDD comparabili, e in inferenza, la sua Path-Drop Guidance (PDG) quasi dimezza i FLOPs migliorando al contempo la qualità. Questi risultati stabiliscono SPRINT come una soluzione semplice, efficace e generale per l'addestramento efficiente dei DiT.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.
PDF21December 3, 2025