ChatPaper.aiChatPaper

Bildfreie Zeitschritt-Distillation durch kontinuierliche Zeitkonsistenz mit trajektoriengestützten Paaren

Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

November 25, 2025
papers.authors: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI

papers.abstract

Zeitschritt-Distillation ist ein effektiver Ansatz zur Verbesserung der Erzeugungseffizienz von Diffusionsmodellen. Das Konsistenzmodell (CM) zeigt als trajektorienbasiertes Framework aufgrund seiner soliden theoretischen Grundlage und hochwertigen Few-Step-Generierung ein erhebliches Potenzial. Dennoch sind aktuelle Kontinuierlich-Zeit-Konsistenzdistillationsverfahren nach wie vor stark von Trainingsdaten und Rechenressourcen abhängig, was ihren Einsatz in ressourcenbeschränkten Szenarien behindert und ihre Skalierbarkeit auf verschiedene Domänen einschränkt. Um dieses Problem zu lösen, schlagen wir das Trajektorien-Rückwärts-Konsistenzmodell (TBCM) vor, das die Abhängigkeit von externen Trainingsdaten beseitigt, indem latente Repräsentationen direkt aus der Generierungstrajektorie des Lehrermodells extrahiert werden. Im Gegensatz zu konventionellen Methoden, die VAE-Codierung und große Datensätze erfordern, verbessert unser eigenständiges Distillationsparadigma sowohl die Effizienz als auch die Einfachheit erheblich. Darüber hinaus überbrücken die trajektorienextrahierten Samples natürlicherweise die Distributionslücke zwischen Training und Inferenz, was einen effektiveren Wissenstransfer ermöglicht. Empirisch erreicht TBCM 6,52 FID und 28,08 CLIP-Scores auf MJHQ-30k unter Ein-Schritt-Generierung, reduziert gleichzeitig die Trainingszeit um etwa 40 % im Vergleich zu Sana-Sprint und spart erhebliche GPU-Speicherressourcen, was eine überlegene Effizienz ohne Qualitätseinbußen demonstriert. Wir beleuchten weiterhin die Diffusions-Generierungs-Raum-Diskrepanz bei der Kontinuierlich-Zeit-Konsistenzdistillation und analysieren, wie Sampling-Strategien die Distillationsleistung beeinflussen, um Erkenntnisse für zukünftige Distillationsforschung zu liefern. GitHub-Link: https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.
PDF22December 1, 2025