Distillazione della Coerenza delle Traiettorie
Trajectory Consistency Distillation
February 29, 2024
Autori: Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham
cs.AI
Abstract
Il Latent Consistency Model (LCM) estende il Consistency Model allo spazio latente e sfrutta la tecnica di distillazione guidata della consistenza per ottenere prestazioni impressionanti nell'accelerare la sintesi da testo a immagine. Tuttavia, abbiamo osservato che l'LCM fatica a generare immagini con chiarezza e dettagli intricati. Per affrontare questa limitazione, inizialmente approfondiamo e chiariamo le cause sottostanti. La nostra indagine identifica che il problema principale deriva da errori in tre aree distinte. Di conseguenza, introduciamo la Trajectory Consistency Distillation (TCD), che comprende la funzione di consistenza della traiettoria e il campionamento stocastico strategico. La funzione di consistenza della traiettoria riduce gli errori di distillazione ampliando l'ambito della condizione al contorno di auto-consistenza e conferendo alla TCD la capacità di tracciare accuratamente l'intera traiettoria della Probability Flow ODE. Inoltre, il campionamento stocastico strategico è specificamente progettato per evitare gli errori accumulati nel campionamento di consistenza multi-step, ed è meticolosamente adattato per completare il modello TCD. Gli esperimenti dimostrano che la TCD non solo migliora significativamente la qualità dell'immagine a bassi NFEs, ma produce anche risultati più dettagliati rispetto al modello insegnante ad alti NFEs.
English
Latent Consistency Model (LCM) extends the Consistency Model to the latent
space and leverages the guided consistency distillation technique to achieve
impressive performance in accelerating text-to-image synthesis. However, we
observed that LCM struggles to generate images with both clarity and detailed
intricacy. To address this limitation, we initially delve into and elucidate
the underlying causes. Our investigation identifies that the primary issue
stems from errors in three distinct areas. Consequently, we introduce
Trajectory Consistency Distillation (TCD), which encompasses trajectory
consistency function and strategic stochastic sampling. The trajectory
consistency function diminishes the distillation errors by broadening the scope
of the self-consistency boundary condition and endowing the TCD with the
ability to accurately trace the entire trajectory of the Probability Flow ODE.
Additionally, strategic stochastic sampling is specifically designed to
circumvent the accumulated errors inherent in multi-step consistency sampling,
which is meticulously tailored to complement the TCD model. Experiments
demonstrate that TCD not only significantly enhances image quality at low NFEs
but also yields more detailed results compared to the teacher model at high
NFEs.