ChatPaper.aiChatPaper

Sprint: Fusión Residual Dispersa-Densa para Transformadores de Difusión Eficientes

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

October 24, 2025
Autores: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI

Resumen

Los Transformadores de Difusión (DiTs) ofrecen un rendimiento generativo de vanguardia, pero su costo cuadrático de entrenamiento con la longitud de la secuencia hace que el preentrenamiento a gran escala sea prohibitivamente costoso. La eliminación de *tokens* puede reducir el costo de entrenamiento, pero las estrategias ingenuas degradan las representaciones, y los métodos existentes son o bien pesados en parámetros o fallan en ratios de eliminación altos. Presentamos SPRINT, *Sparse–Dense Residual Fusion for Efficient Diffusion Transformers*, un método simple que permite una eliminación agresiva de *tokens* (hasta un 75%) preservando la calidad. SPRINT aprovecha los roles complementarios de las capas superficiales y profundas: las primeras capas procesan todos los *tokens* para capturar detalles locales, las capas más profundas operan sobre un subconjunto disperso para reducir el cómputo, y sus salidas se fusionan mediante conexiones residuales. El entrenamiento sigue un programa de dos etapas: un preentrenamiento largo con enmascaramiento para eficiencia, seguido de un ajuste fino corto con todos los *tokens* para cerrar la brecha entrenamiento-inferencia. En ImageNet-1K 256x256, SPRINT logra un ahorro de entrenamiento de 9.8x con FID/FDD comparable, y en inferencia, su *Path-Drop Guidance* (PDG) casi reduce a la mitad los FLOPS mientras mejora la calidad. Estos resultados establecen a SPRINT como una solución simple, efectiva y general para el entrenamiento eficiente de DiTs.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.
PDF31December 31, 2025