Спринт: Эффективное слияние разреженно-плотных остатков для диффузионных трансформаторов

Аннотация

Диффузионные трансформаторы (DiT) демонстрируют передовые результаты в генеративных задачах, однако их квадратичная стоимость обучения от длины последовательности делает крупномасштабное предварительное обучение чрезмерно дорогостоящим. Отбрасывание токенов может снизить затраты на обучение, но наивные стратегии ухудшают качество представлений, а существующие методы либо требуют большого числа параметров, либо не работают при высоких коэффициентах отбрасывания. Мы представляем SPRINT (Sparse–Dense Residual Fusion for Efficient Diffusion Transformers) — простой метод, который позволяет агрессивно отбрасывать токены (до 75%), сохраняя при этом качество. SPRINT использует комплементарные роли мелких и глубоких слоев: начальные слои обрабатывают все токены для захвата локальных деталей, более глубокие слои работают с разреженным подмножеством для сокращения вычислений, а их выходы объединяются через остаточные связи. Обучение следует двухэтапному расписанию: длительное предварительное обучение с маскированием для эффективности с последующей краткой тонкой настройкой на полном наборе токенов для устранения разрыва между обучением и выводом. На данных ImageNet-1K 256x256 SPRINT обеспечивает 9.8-кратную экономию обучения при сопоставимых значениях FID/FDD, а на этапе вывода его метод Path-Drop Guidance (PDG) сокращает FLOPs почти вдвое, одновременно улучшая качество. Эти результаты устанавливают SPRINT как простое, эффективное и универсальное решение для эффективного обучения DiT.

English

Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.

Спринт: Эффективное слияние разреженно-плотных остатков для диффузионных трансформаторов

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

Аннотация

Support