Безинтервальная дискретизация временных шагов посредством непрерывной временной согласованности с траекторно-сэмплированными парами
Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs
November 25, 2025
Авторы: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI
Аннотация
Дистилляция временных шагов является эффективным подходом для повышения эффективности генерации диффузионных моделей. Модель согласованности (Consistency Model, CM) как траекторно-ориентированная framework демонстрирует значительный потенциал благодаря своей прочной теоретической основе и высококачественной генерации за малое количество шагов. Тем не менее, современные методы дистилляции согласованности в непрерывном времени по-прежнему сильно зависят от обучающих данных и вычислительных ресурсов, что затрудняет их развертывание в условиях ограниченных ресурсов и ограничивает их масштабируемость для различных областей. Для решения этой проблемы мы предлагаем Траекторно-обратную модель согласованности (Trajectory-Backward Consistency Model, TBCM), которая устраняет зависимость от внешних обучающих данных путем извлечения латентных представлений непосредственно из траектории генерации учительской модели. В отличие от традиционных методов, требующих VAE-кодирования и крупномасштабных наборов данных, наша самодостаточная парадигма дистилляции значительно повышает как эффективность, так и простоту. Более того, извлеченные из траектории выборки естественным образом устраняют разрыв распределений между обучением и выводом, тем самым обеспечивая более эффективный перенос знаний. Экспериментально TBCM достигает показателей 6.52 FID и 28.08 CLIP на наборе MJHQ-30k при одношаговой генерации, одновременно сокращая время обучения примерно на 40% по сравнению с Sana-Sprint и экономя значительный объем GPU-памяти, что демонстрирует превосходную эффективность без ущерба для качества. Мы также выявляем расхождение диффузионно-генерационного пространства при дистилляции согласованности в непрерывном времени и анализируем, как стратегии сэмплирования влияют на производительность дистилляции, предлагая insights для будущих исследований в области дистилляции. Ссылка на GitHub: https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.