Il Backtracking di Distribuzione Costruisce una Tragittoia di Convergenza Più Veloce per la Distillazione a Diffusione in un Passo
Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation
August 28, 2024
Autori: Shengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun
cs.AI
Abstract
Accelerare la velocità di campionamento dei modelli di diffusione rimane una sfida significativa. I recenti metodi di distillazione dei punteggi distillano un modello docente pesante in un generatore studente a un passo, ottimizzato calcolando la differenza tra le due funzioni di punteggio sui campioni generati dal modello studente. Tuttavia, c'è un problema di discrepanza dei punteggi nelle prime fasi del processo di distillazione, poiché i metodi esistenti si concentrano principalmente sull'utilizzo del punto finale dei modelli di diffusione preaddestrati come modelli docenti, trascurando l'importanza della traiettoria di convergenza tra il generatore studente e il modello docente. Per affrontare questo problema, estendiamo il processo di distillazione dei punteggi introducendo l'intera traiettoria di convergenza dei modelli docenti e proponiamo la Distillazione del Backtracking della Distribuzione (DisBack) per la distillazione dei generatori studente. DisBack è composto da due fasi: Registrazione della Degradazione e Backtracking della Distribuzione. La Registrazione della Degradazione è progettata per ottenere la traiettoria di convergenza dei modelli docenti, che registra il percorso di degrado dal modello docente addestrato al generatore studente iniziale non addestrato. Il percorso di degrado rappresenta implicitamente le distribuzioni intermedie dei modelli docenti. Successivamente, il Backtracking della Distribuzione addestra un generatore studente a seguire le distribuzioni intermedie per approssimare la traiettoria di convergenza dei modelli docenti. Gli esperimenti estensivi mostrano che DisBack raggiunge una convergenza più veloce e migliore rispetto al metodo di distillazione esistente e raggiunge prestazioni di generazione comparabili. In particolare, DisBack è facile da implementare e può essere generalizzato ai metodi di distillazione esistenti per migliorarne le prestazioni. Il nostro codice è pubblicamente disponibile su https://github.com/SYZhang0805/DisBack.
English
Accelerating the sampling speed of diffusion models remains a significant
challenge. Recent score distillation methods distill a heavy teacher model into
an one-step student generator, which is optimized by calculating the difference
between the two score functions on the samples generated by the student model.
However, there is a score mismatch issue in the early stage of the distillation
process, because existing methods mainly focus on using the endpoint of
pre-trained diffusion models as teacher models, overlooking the importance of
the convergence trajectory between the student generator and the teacher model.
To address this issue, we extend the score distillation process by introducing
the entire convergence trajectory of teacher models and propose Distribution
Backtracking Distillation (DisBack) for distilling student generators. DisBask
is composed of two stages: Degradation Recording and Distribution Backtracking.
Degradation Recording is designed to obtain the convergence trajectory of
teacher models, which records the degradation path from the trained teacher
model to the untrained initial student generator. The degradation path
implicitly represents the intermediate distributions of teacher models. Then
Distribution Backtracking trains a student generator to backtrack the
intermediate distributions for approximating the convergence trajectory of
teacher models. Extensive experiments show that DisBack achieves faster and
better convergence than the existing distillation method and accomplishes
comparable generation performance. Notably, DisBack is easy to implement and
can be generalized to existing distillation methods to boost performance. Our
code is publicly available on https://github.com/SYZhang0805/DisBack.