Hyper-SD: Trajektorie-segmentiertes Konsistenzmodell für effiziente Bildsynthese
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Autoren: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Zusammenfassung
In letzter Zeit sind eine Reihe von Diffusion-aware Distillation-Algorithmen entstanden, um den Rechenaufwand zu verringern, der mit dem mehrstufigen Inferenzprozess von Diffusion Models (DMs) verbunden ist. Aktuelle Destillationsverfahren unterteilen sich oft in zwei unterschiedliche Aspekte: i) ODE-Trajektorienerhaltung; und ii) ODE-Trajektorienevaluierung. Diese Ansätze leiden jedoch unter erheblicher Leistungsverschlechterung oder Domänenverschiebungen. Um diese Einschränkungen zu bewältigen, schlagen wir Hyper-SD vor, ein neuartiges Framework, das die Vorteile der ODE-Trajektorienerhaltung und -evaluierung synergistisch vereint, während es eine nahezu verlustfreie Leistung während der Schrittkompression aufrechterhält. Zunächst führen wir Trajektorien-segmentierte Konsistenz-Destillation ein, um schrittweise eine konsistente Destillation innerhalb vordefinierter Zeitschrittsegmente durchzuführen, was die Erhaltung der ursprünglichen ODE-Trajektorie aus einer höheren Perspektive erleichtert. Zweitens integrieren wir menschliches Feedback-Lernen, um die Leistung des Modells in einem Niedrigschritt-Regime zu steigern und den Leistungsverlust, der durch den Destillationsprozess entsteht, zu mildern. Drittens integrieren wir Score-Destillation, um die Niedrigschritt-Generationsfähigkeit des Modells weiter zu verbessern und den ersten Versuch zu unternehmen, eine einheitliche LoRA zu nutzen, um den Inferenzprozess in allen Schritten zu unterstützen. Umfangreiche Experimente und Benutzerstudien zeigen, dass Hyper-SD von 1 bis 8 Inferenzschritten für sowohl SDXL als auch SD1.5 eine SOTA-Leistung erzielt. Beispielsweise übertrifft Hyper-SDXL SDXL-Lightning um +0,68 im CLIP-Score und +0,51 im Aes-Score bei der 1-Schritt-Inferenz.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.Summary
AI-Generated Summary