Hyper-SD: Trajectoriegesegmenteerd Consistentiemodel voor Efficiënte Beeldsynthese
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Auteurs: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Samenvatting
Onlangs is een reeks diffusiebewuste distillatie-algoritmen ontstaan om de
computationale overhead die gepaard gaat met het meerstaps inferentieproces
van Diffusiemodellen (DM's) te verlichten. Huidige distillatietechnieken
delen zich vaak op in twee verschillende aspecten: i) ODE-trajectbehoud; en ii)
ODE-trajectherformulering. Deze benaderingen leiden echter tot ernstige
prestatievermindering of domeinverschuivingen. Om deze beperkingen aan te
pakken, stellen we Hyper-SD voor, een nieuw raamwerk dat de voordelen van
ODE-trajectbehoud en -herformulering synergetisch combineert, terwijl het
bijna verliesvrije prestaties behoudt tijdens stapcompressie. Ten eerste
introduceren we Trajectory Segmented Consistency Distillation om progressief
consistente distillatie uit te voeren binnen vooraf gedefinieerde tijdstapsegmenten,
wat het behoud van het oorspronkelijke ODE-traject vanuit een hogere-orde
perspectief vergemakkelijkt. Ten tweede integreren we menselijke feedbackleren
om de prestaties van het model in een laagstapsregime te verbeteren en het
prestatieverlies veroorzaakt door het distillatieproces te verminderen. Ten derde
integreren we score-distillatie om de laagstapsgeneratiecapaciteit van het model
verder te verbeteren en bieden we de eerste poging om een verenigde LoRA te
gebruiken om het inferentieproces bij alle stappen te ondersteunen. Uitgebreide
experimenten en gebruikersstudies tonen aan dat Hyper-SD SOTA-prestaties
bereikt van 1 tot 8 inferentiestappen voor zowel SDXL als SD1.5. Hyper-SDXL
overtreft bijvoorbeeld SDXL-Lightning met +0,68 in CLIP Score en +0,51 in
Aes Score bij 1-staps inferentie.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.