ChatPaper.aiChatPaper

Distillazione Senza Immagini dei Passi Temporali tramite Consistenza nel Tempo Continuo con Coppie Campionate dalla Traiettoria

Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

November 25, 2025
Autori: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI

Abstract

La distillazione del timestep è un approccio efficace per migliorare l'efficienza generativa dei modelli di diffusione. Il Modello di Consistenza (CM), in quanto framework basato su traiettorie, dimostra un potenziale significativo grazie alla sua solida base teorica e alla generazione di alta qualità in pochi passi. Tuttavia, gli attuali metodi di distillazione della consistenza a tempo continuo dipendono ancora fortemente dai dati di addestramento e dalle risorse computazionali, ostacolandone l'adozione in scenari con risorse limitate e limitandone la scalabilità a domini diversi. Per affrontare questo problema, proponiamo il Trajectory-Backward Consistency Model (TBCM), che elimina la dipendenza da dati di addestramento esterni estraendo rappresentazioni latenti direttamente dalla traiettoria generativa del modello insegnante. A differenza dei metodi convenzionali che richiedono la codifica VAE e dataset su larga scala, il nostro paradigma di distillazione autonomo migliora significativamente sia l'efficienza che la semplicità. Inoltre, i campioni estratti dalla traiettoria colmano naturalmente il divario distributivo tra addestramento e inferenza, consentendo così un trasferimento di conoscenza più efficace. Empiricamente, TBCM raggiunge punteggi di 6.52 FID e 28.08 CLIP su MJHQ-30k nella generazione a singolo passo, riducendo contemporaneamente il tempo di addestramento di circa il 40% rispetto a Sana-Sprint e risparmiando una quantità sostanziale di memoria GPU, dimostrando un'efficienza superiore senza sacrificare la qualità. Riveliamo inoltre la discrepanza spazio-diffusione-generazione nella distillazione di consistenza a tempo continuo e analizziamo come le strategie di campionamento influenzino le prestazioni della distillazione, offrendo spunti per la futura ricerca in questo campo. Link GitHub: https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.
PDF22December 1, 2025