Distillation de la Consistance des Trajectoires
Trajectory Consistency Distillation
February 29, 2024
Auteurs: Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham
cs.AI
Résumé
Le Latent Consistency Model (LCM) étend le Consistency Model à l'espace latent et exploite la technique de distillation guidée de la cohérence pour obtenir des performances impressionnantes dans l'accélération de la synthèse texte-image. Cependant, nous avons observé que le LCM peine à générer des images à la fois claires et riches en détails complexes. Pour remédier à cette limitation, nous avons d'abord exploré et élucidé les causes sous-jacentes. Notre investigation révèle que le problème principal provient d'erreurs dans trois domaines distincts. Par conséquent, nous introduisons la Trajectory Consistency Distillation (TCD), qui intègre une fonction de cohérence de trajectoire et un échantillonnage stochastique stratégique. La fonction de cohérence de trajectoire réduit les erreurs de distillation en élargissant la portée de la condition aux limites d'auto-cohérence et en dotant la TCD de la capacité à suivre avec précision l'ensemble de la trajectoire de l'équation différentielle ordinaire (ODE) de flux de probabilité. De plus, l'échantillonnage stochastique stratégique est spécifiquement conçu pour éviter les erreurs accumulées inhérentes à l'échantillonnage de cohérence multi-étapes, soigneusement adapté pour compléter le modèle TCD. Les expériences démontrent que la TCD améliore non seulement de manière significative la qualité des images à faible nombre d'évaluations de fonction (NFEs), mais produit également des résultats plus détaillés par rapport au modèle enseignant à un nombre élevé de NFEs.
English
Latent Consistency Model (LCM) extends the Consistency Model to the latent
space and leverages the guided consistency distillation technique to achieve
impressive performance in accelerating text-to-image synthesis. However, we
observed that LCM struggles to generate images with both clarity and detailed
intricacy. To address this limitation, we initially delve into and elucidate
the underlying causes. Our investigation identifies that the primary issue
stems from errors in three distinct areas. Consequently, we introduce
Trajectory Consistency Distillation (TCD), which encompasses trajectory
consistency function and strategic stochastic sampling. The trajectory
consistency function diminishes the distillation errors by broadening the scope
of the self-consistency boundary condition and endowing the TCD with the
ability to accurately trace the entire trajectory of the Probability Flow ODE.
Additionally, strategic stochastic sampling is specifically designed to
circumvent the accumulated errors inherent in multi-step consistency sampling,
which is meticulously tailored to complement the TCD model. Experiments
demonstrate that TCD not only significantly enhances image quality at low NFEs
but also yields more detailed results compared to the teacher model at high
NFEs.