Hyper-SD: Modello di Consistenza a Segmentazione di Traiettoria per la Sintesi Efficiente di Immagini
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Autori: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Abstract
Recentemente, è emersa una serie di algoritmi di distillazione consapevoli della diffusione per alleviare il sovraccarico computazionale associato al processo di inferenza multi-step dei Modelli di Diffusione (DMs). Le attuali tecniche di distillazione si dividono spesso in due aspetti distinti: i) Preservazione della Traiettoria ODE; e ii) Riformulazione della Traiettoria ODE. Tuttavia, questi approcci soffrono di un grave degrado delle prestazioni o di cambiamenti di dominio. Per affrontare queste limitazioni, proponiamo Hyper-SD, un nuovo framework che sinergicamente combina i vantaggi della Preservazione e della Riformulazione della Traiettoria ODE, mantenendo prestazioni quasi senza perdite durante la compressione dei passi. In primo luogo, introduciamo la Distillazione di Consistenza Segmentata della Traiettoria per eseguire progressivamente una distillazione coerente all'interno di segmenti di tempo predefiniti, facilitando la preservazione della traiettoria ODE originale da una prospettiva di ordine superiore. In secondo luogo, incorporiamo l'apprendimento basato sul feedback umano per migliorare le prestazioni del modello in un regime a basso numero di passi e mitigare la perdita di prestazioni causata dal processo di distillazione. In terzo luogo, integriamo la distillazione del punteggio per migliorare ulteriormente la capacità di generazione a basso numero di passi del modello e offrire il primo tentativo di sfruttare un LoRA unificato per supportare il processo di inferenza a tutti i passi. Esperimenti estesi e studi sugli utenti dimostrano che Hyper-SD raggiunge prestazioni SOTA da 1 a 8 passi di inferenza sia per SDXL che per SD1.5. Ad esempio, Hyper-SDXL supera SDXL-Lightning di +0,68 nel CLIP Score e +0,51 nell'Aes Score nell'inferenza a 1 passo.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.