Distorsión de Paso de Tiempo Libre de Imágenes mediante Consistencia en Tiempo Continuo con Pares Muestreados por Trayectoria
Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs
November 25, 2025
Autores: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
La destilación de pasos temporales es un enfoque efectivo para mejorar la eficiencia de generación de los modelos de difusión. El Modelo de Consistencia (CM), como marco basado en trayectorias, demuestra un potencial significativo debido a su sólido fundamento teórico y su generación de alta calidad en pocos pasos. Sin embargo, los métodos actuales de destilación de consistencia en tiempo continuo aún dependen en gran medida de datos de entrenamiento y recursos computacionales, lo que dificulta su implementación en escenarios con recursos limitados y restringe su escalabilidad a diversos dominios. Para abordar este problema, proponemos el Modelo de Consistencia por Retro-trayectoria (TBCM), que elimina la dependencia de datos externos de entrenamiento extrayendo representaciones latentes directamente de la trayectoria de generación del modelo maestro. A diferencia de los métodos convencionales que requieren codificación VAE y conjuntos de datos a gran escala, nuestro paradigma de destilación autónomo mejora significativamente tanto la eficiencia como la simplicidad. Además, las muestras extraídas de la trayectoria reducen naturalmente la brecha distribucional entre el entrenamiento y la inferencia, permitiendo así una transferencia de conocimiento más efectiva. Empíricamente, TBCM logra puntuaciones de 6.52 FID y 28.08 CLIP en MJHQ-30k bajo generación en un solo paso, mientras reduce el tiempo de entrenamiento en aproximadamente un 40% comparado con Sana-Sprint y ahorra una cantidad sustancial de memoria GPU, demostrando una eficiencia superior sin sacrificar calidad. Además, revelamos la discrepancia espacio-generación en la destilación de consistencia en tiempo continuo y analizamos cómo las estrategias de muestreo afectan el rendimiento de la destilación, ofreciendo perspectivas para futuras investigaciones en destilación. Enlace GitHub: https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.