Hyper-SD: Trajektorie-segmentiertes Konsistenzmodell für effiziente Bildsynthese

papers.abstract

In letzter Zeit sind eine Reihe von Diffusion-aware Distillation-Algorithmen entstanden, um den Rechenaufwand zu verringern, der mit dem mehrstufigen Inferenzprozess von Diffusion Models (DMs) verbunden ist. Aktuelle Destillationsverfahren unterteilen sich oft in zwei unterschiedliche Aspekte: i) ODE-Trajektorienerhaltung; und ii) ODE-Trajektorienevaluierung. Diese Ansätze leiden jedoch unter erheblicher Leistungsverschlechterung oder Domänenverschiebungen. Um diese Einschränkungen zu bewältigen, schlagen wir Hyper-SD vor, ein neuartiges Framework, das die Vorteile der ODE-Trajektorienerhaltung und -evaluierung synergistisch vereint, während es eine nahezu verlustfreie Leistung während der Schrittkompression aufrechterhält. Zunächst führen wir Trajektorien-segmentierte Konsistenz-Destillation ein, um schrittweise eine konsistente Destillation innerhalb vordefinierter Zeitschrittsegmente durchzuführen, was die Erhaltung der ursprünglichen ODE-Trajektorie aus einer höheren Perspektive erleichtert. Zweitens integrieren wir menschliches Feedback-Lernen, um die Leistung des Modells in einem Niedrigschritt-Regime zu steigern und den Leistungsverlust, der durch den Destillationsprozess entsteht, zu mildern. Drittens integrieren wir Score-Destillation, um die Niedrigschritt-Generationsfähigkeit des Modells weiter zu verbessern und den ersten Versuch zu unternehmen, eine einheitliche LoRA zu nutzen, um den Inferenzprozess in allen Schritten zu unterstützen. Umfangreiche Experimente und Benutzerstudien zeigen, dass Hyper-SD von 1 bis 8 Inferenzschritten für sowohl SDXL als auch SD1.5 eine SOTA-Leistung erzielt. Beispielsweise übertrifft Hyper-SDXL SDXL-Lightning um +0,68 im CLIP-Score und +0,51 im Aes-Score bei der 1-Schritt-Inferenz.

English

Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.

Hyper-SD: Trajektorie-segmentiertes Konsistenzmodell für effiziente Bildsynthese

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

papers.abstract

Support