Trajektorienkonsistenz-Destillation
Trajectory Consistency Distillation
February 29, 2024
Autoren: Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham
cs.AI
Zusammenfassung
Das Latent Consistency Model (LCM) erweitert das Consistency Model auf den latenten Raum und nutzt die Technik des geführten Konsistenz-Destillierens, um beeindruckende Leistungen bei der Beschleunigung der Text-zu-Bild-Synthese zu erzielen. Allerdings haben wir beobachtet, dass LCM Schwierigkeiten hat, Bilder mit sowohl Klarheit als auch detaillierter Komplexität zu erzeugen. Um diese Einschränkung zu adressieren, gehen wir zunächst auf die zugrunde liegenden Ursachen ein und erläutern diese. Unsere Untersuchung zeigt, dass das Hauptproblem auf Fehler in drei verschiedenen Bereichen zurückzuführen ist. Folglich führen wir das Trajectory Consistency Distillation (TCD) ein, das eine Trajektorien-Konsistenzfunktion und strategisches stochastisches Sampling umfasst. Die Trajektorien-Konsistenzfunktion reduziert die Destillationsfehler, indem sie den Rahmen der Selbstkonsistenz-Randbedingung erweitert und TCD die Fähigkeit verleiht, die gesamte Trajektorie der Probability Flow ODE präzise nachzuverfolgen. Zusätzlich ist das strategische stochastische Sampling speziell darauf ausgelegt, die akkumulierten Fehler, die beim mehrstufigen Konsistenz-Sampling auftreten, zu vermeiden, und es ist sorgfältig darauf abgestimmt, das TCD-Modell zu ergänzen. Experimente zeigen, dass TCD nicht nur die Bildqualität bei niedrigen NFEs (Number of Function Evaluations) erheblich verbessert, sondern auch detailliertere Ergebnisse im Vergleich zum Lehrer-Modell bei hohen NFEs liefert.
English
Latent Consistency Model (LCM) extends the Consistency Model to the latent
space and leverages the guided consistency distillation technique to achieve
impressive performance in accelerating text-to-image synthesis. However, we
observed that LCM struggles to generate images with both clarity and detailed
intricacy. To address this limitation, we initially delve into and elucidate
the underlying causes. Our investigation identifies that the primary issue
stems from errors in three distinct areas. Consequently, we introduce
Trajectory Consistency Distillation (TCD), which encompasses trajectory
consistency function and strategic stochastic sampling. The trajectory
consistency function diminishes the distillation errors by broadening the scope
of the self-consistency boundary condition and endowing the TCD with the
ability to accurately trace the entire trajectory of the Probability Flow ODE.
Additionally, strategic stochastic sampling is specifically designed to
circumvent the accumulated errors inherent in multi-step consistency sampling,
which is meticulously tailored to complement the TCD model. Experiments
demonstrate that TCD not only significantly enhances image quality at low NFEs
but also yields more detailed results compared to the teacher model at high
NFEs.