Hyper-SD : Modèle de Cohérence Segmentée par Trajectoire pour la Synthèse Efficace d'Images

papers.abstract

Récemment, une série d'algorithmes de distillation prenant en compte la diffusion ont émergé pour atténuer la surcharge computationnelle associée au processus d'inférence multi-étapes des Modèles de Diffusion (DMs). Les techniques de distillation actuelles se divisent souvent en deux aspects distincts : i) la Préservation de la Trajectoire ODE ; et ii) la Reformulation de la Trajectoire ODE. Cependant, ces approches souffrent d'une dégradation sévère des performances ou de décalages de domaine. Pour pallier ces limitations, nous proposons Hyper-SD, un nouveau cadre qui combine de manière synergique les avantages de la Préservation et de la Reformulation de la Trajectoire ODE, tout en maintenant une performance quasi-sans perte lors de la compression des étapes. Premièrement, nous introduisons la Distillation de Cohérence Segmentée de Trajectoire pour effectuer progressivement une distillation cohérente dans des segments d'étapes de temps prédéfinis, ce qui facilite la préservation de la trajectoire ODE originale d'un point de vue d'ordre supérieur. Deuxièmement, nous intégrons l'apprentissage par feedback humain pour améliorer les performances du modèle dans un régime à faible nombre d'étapes et atténuer la perte de performance engendrée par le processus de distillation. Troisièmement, nous intégrons la distillation de score pour améliorer davantage la capacité de génération à faible nombre d'étapes du modèle et proposons la première tentative d'utiliser un LoRA unifié pour supporter le processus d'inférence à toutes les étapes. Des expériences approfondies et des études utilisateurs démontrent qu'Hyper-SD atteint des performances de pointe (SOTA) de 1 à 8 étapes d'inférence pour SDXL et SD1.5. Par exemple, Hyper-SDXL surpasse SDXL-Lightning de +0,68 en CLIP Score et +0,51 en Aes Score lors de l'inférence en 1 étape.

English

Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.

Hyper-SD : Modèle de Cohérence Segmentée par Trajectoire pour la Synthèse Efficace d'Images

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

papers.abstract

Support