Hyper-SD : Modèle de Cohérence Segmentée par Trajectoire pour la Synthèse Efficace d'Images
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Auteurs: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Résumé
Récemment, une série d'algorithmes de distillation prenant en compte la diffusion ont émergé pour atténuer la surcharge computationnelle associée au processus d'inférence multi-étapes des Modèles de Diffusion (DMs). Les techniques de distillation actuelles se divisent souvent en deux aspects distincts : i) la Préservation de la Trajectoire ODE ; et ii) la Reformulation de la Trajectoire ODE. Cependant, ces approches souffrent d'une dégradation sévère des performances ou de décalages de domaine. Pour pallier ces limitations, nous proposons Hyper-SD, un nouveau cadre qui combine de manière synergique les avantages de la Préservation et de la Reformulation de la Trajectoire ODE, tout en maintenant une performance quasi-sans perte lors de la compression des étapes. Premièrement, nous introduisons la Distillation de Cohérence Segmentée de Trajectoire pour effectuer progressivement une distillation cohérente dans des segments d'étapes de temps prédéfinis, ce qui facilite la préservation de la trajectoire ODE originale d'un point de vue d'ordre supérieur. Deuxièmement, nous intégrons l'apprentissage par feedback humain pour améliorer les performances du modèle dans un régime à faible nombre d'étapes et atténuer la perte de performance engendrée par le processus de distillation. Troisièmement, nous intégrons la distillation de score pour améliorer davantage la capacité de génération à faible nombre d'étapes du modèle et proposons la première tentative d'utiliser un LoRA unifié pour supporter le processus d'inférence à toutes les étapes. Des expériences approfondies et des études utilisateurs démontrent qu'Hyper-SD atteint des performances de pointe (SOTA) de 1 à 8 étapes d'inférence pour SDXL et SD1.5. Par exemple, Hyper-SDXL surpasse SDXL-Lightning de +0,68 en CLIP Score et +0,51 en Aes Score lors de l'inférence en 1 étape.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.Summary
AI-Generated Summary