Hyper-SD: Модель согласованности сегментированных траекторий для эффективного синтеза изображений
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Авторы: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Аннотация
В последнее время появился ряд алгоритмов дистилляции, учитывающих диффузию, чтобы снизить вычислительную нагрузку, связанную с многоэтапным процессом вывода моделей диффузии (DMs). Существующие техники дистилляции часто разделяются на два отличных аспекта: i) Сохранение траектории ОДУ; и ii) Реформулирование траектории ОДУ. Однако эти подходы страдают от серьезного снижения производительности или сдвигов доменов. Для преодоления этих ограничений мы предлагаем Hyper-SD, новую структуру, которая синергетически объединяет преимущества сохранения и реформулирования траектории ОДУ, сохраняя при этом почти беспроигрышную производительность во время сжатия шагов. Во-первых, мы вводим Дистилляцию Согласованности Сегментированной Траектории для постепенного выполнения согласованной дистилляции в предопределенных сегментах временных шагов, что способствует сохранению оригинальной траектории ОДУ с более высокоуровневой перспективы. Во-вторых, мы внедряем обучение на основе обратной связи человека для улучшения производительности модели в режиме низкого количества шагов и смягчения потери производительности, вызванной процессом дистилляции. В-третьих, мы интегрируем дистилляцию оценок для дальнейшего улучшения способности модели к генерации на низком количестве шагов и предлагаем первую попытку использовать унифицированный LoRA для поддержки процесса вывода на всех шагах. Обширные эксперименты и пользовательские исследования показывают, что Hyper-SD достигает лучшей производительности от 1 до 8 шагов вывода как для SDXL, так и для SD1.5. Например, Hyper-SDXL превосходит SDXL-Lightning на +0.68 в CLIP Score и +0.51 в Aes Score при выводе на 1 шаге.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.Summary
AI-Generated Summary