Спринт: Эффективное слияние разреженно-плотных остатков для диффузионных трансформаторов
Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
October 24, 2025
Авторы: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag
cs.AI
Аннотация
Диффузионные трансформаторы (DiT) демонстрируют передовые результаты в генеративных задачах, однако их квадратичная стоимость обучения от длины последовательности делает крупномасштабное предварительное обучение чрезмерно дорогостоящим. Отбрасывание токенов может снизить затраты на обучение, но наивные стратегии ухудшают качество представлений, а существующие методы либо требуют большого числа параметров, либо не работают при высоких коэффициентах отбрасывания. Мы представляем SPRINT (Sparse–Dense Residual Fusion for Efficient Diffusion Transformers) — простой метод, который позволяет агрессивно отбрасывать токены (до 75%), сохраняя при этом качество. SPRINT использует комплементарные роли мелких и глубоких слоев: начальные слои обрабатывают все токены для захвата локальных деталей, более глубокие слои работают с разреженным подмножеством для сокращения вычислений, а их выходы объединяются через остаточные связи. Обучение следует двухэтапному расписанию: длительное предварительное обучение с маскированием для эффективности с последующей краткой тонкой настройкой на полном наборе токенов для устранения разрыва между обучением и выводом. На данных ImageNet-1K 256x256 SPRINT обеспечивает 9.8-кратную экономию обучения при сопоставимых значениях FID/FDD, а на этапе вывода его метод Path-Drop Guidance (PDG) сокращает FLOPs почти вдвое, одновременно улучшая качество. Эти результаты устанавливают SPRINT как простое, эффективное и универсальное решение для эффективного обучения DiT.
English
Diffusion Transformers (DiTs) deliver state-of-the-art generative performance
but their quadratic training cost with sequence length makes large-scale
pretraining prohibitively expensive. Token dropping can reduce training cost,
yet na\"ive strategies degrade representations, and existing methods are either
parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense
Residual Fusion for Efficient Diffusion Transformers, a simple method that
enables aggressive token dropping (up to 75%) while preserving quality. SPRINT
leverages the complementary roles of shallow and deep layers: early layers
process all tokens to capture local detail, deeper layers operate on a sparse
subset to cut computation, and their outputs are fused through residual
connections. Training follows a two-stage schedule: long masked pre-training
for efficiency followed by short full-token fine-tuning to close the
train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training
savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG)
nearly halves FLOPs while improving quality. These results establish SPRINT as
a simple, effective, and general solution for efficient DiT training.