ChatPaper.aiChatPaper

Distillation sans images d'instants temporels via une cohérence en temps continu avec des paires échantillonnées sur trajectoire

Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

November 25, 2025
papers.authors: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI

papers.abstract

La distillation des pas de temps est une approche efficace pour améliorer l'efficacité de génération des modèles de diffusion. Le Modèle de Consistance (CM), en tant que cadre basé sur les trajectoires, démontre un potentiel significatif grâce à ses solides fondements théoriques et sa génération de haute qualité en peu d'étapes. Néanmoins, les méthodes actuelles de distillation de consistance en temps continu reposent encore largement sur les données d'entraînement et les ressources computationnelles, ce qui entrave leur déploiement dans des scénarios aux ressources limitées et limite leur extensibilité à divers domaines. Pour résoudre ce problème, nous proposons le Modèle de Consistance Rétrograde par Trajectoire (TBCM), qui élimine la dépendance aux données d'entraînement externes en extrayant directement les représentations latentes de la trajectoire de génération du modèle enseignant. Contrairement aux méthodes conventionnelles nécessitant un encodage VAE et de vastes ensembles de données, notre paradigme de distillation autonome améliore significativement à la fois l'efficacité et la simplicité. De plus, les échantillons extraits de la trajectoire comblent naturellement l'écart de distribution entre l'entraînement et l'inférence, permettant ainsi un transfert de connaissances plus efficace. Empiriquement, TBCM atteint un FID de 6,52 et un score CLIP de 28,08 sur MJHQ-30k en génération en une étape, tout en réduisant le temps d'entraînement d'environ 40% par rapport à Sana-Sprint et en économisant une quantité substantielle de mémoire GPU, démontrant une efficacité supérieure sans sacrifier la qualité. Nous révélons en outre la divergence espace de diffusion-génération dans la distillation de consistance en temps continu et analysons comment les stratégies d'échantillonnage affectent les performances de distillation, offrant ainsi des perspectives pour les futures recherches en distillation. Lien GitHub : https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.
PDF22December 1, 2025