Distilação de Passos de Tempo Livre de Imagem via Consistência em Tempo Contínuo com Pares Amostrados por Trajetória

Resumo

A destilação de passos temporais é uma abordagem eficaz para melhorar a eficiência de geração de modelos de difusão. O Modelo de Consistência (CM), enquanto estrutura baseada em trajetórias, demonstra potencial significativo devido à sua sólida fundamentação teórica e geração de alta qualidade em poucos passos. No entanto, os métodos atuais de destilação de consistência em tempo contínuo ainda dependem fortemente de dados de treinamento e recursos computacionais, dificultando sua implantação em cenários com recursos limitados e restringindo sua escalabilidade para diversos domínios. Para resolver esta questão, propomos o Modelo de Consistência Trajetória-Reversa (TBCM), que elimina a dependência de dados de treinamento externos ao extrair representações latentes diretamente da trajetória de geração do modelo professor. Diferente dos métodos convencionais que requerem codificação VAE e conjuntos de dados em larga escala, nosso paradigma de destilação autossuficiente melhora significativamente tanto a eficiência quanto a simplicidade. Adicionalmente, as amostras extraídas da trajetória naturalmente preenchem a lacuna de distribuição entre treinamento e inferência, permitindo assim uma transferência de conhecimento mais eficaz. Empiricamente, o TBCM atinge pontuações de 6.52 FID e 28.08 CLIP no conjunto MJHQ-30k sob geração em um único passo, enquanto reduz o tempo de treinamento em aproximadamente 40% comparado ao Sana-Sprint e economiza uma quantidade substancial de memória GPU, demonstrando eficiência superior sem sacrificar a qualidade. Revelamos ainda a discrepância espaço de difusão-geração na destilação de consistência em tempo contínuo e analisamos como as estratégias de amostragem afetam o desempenho da destilação, oferecendo insights para futuras pesquisas em destilação. Link do GitHub: https://github.com/hustvl/TBCM.

English

Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.

Distilação de Passos de Tempo Livre de Imagem via Consistência em Tempo Contínuo com Pares Amostrados por Trajetória

Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

Resumo

Support