Hyper-SD: Modelo de Consistência Segmentado por Trajetória para Síntese Eficiente de Imagens
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
April 21, 2024
Autores: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI
Resumo
Recentemente, surgiu uma série de algoritmos de destilação conscientes da difusão para aliviar a sobrecarga computacional associada ao processo de inferência em múltiplos passos dos Modelos de Difusão (DMs). As técnicas atuais de destilação frequentemente se dividem em dois aspectos distintos: i) Preservação da Trajetória ODE; e ii) Reformulação da Trajetória ODE. No entanto, essas abordagens sofrem com degradação severa de desempenho ou mudanças de domínio. Para abordar essas limitações, propomos o Hyper-SD, uma nova estrutura que sinergicamente combina as vantagens da Preservação e Reformulação da Trajetória ODE, mantendo um desempenho quase sem perdas durante a compressão de passos. Primeiramente, introduzimos a Destilação de Consistência Segmentada por Trajetória para realizar progressivamente a destilação consistente dentro de segmentos de passos de tempo pré-definidos, o que facilita a preservação da trajetória ODE original a partir de uma perspectiva de ordem superior. Em segundo lugar, incorporamos o aprendizado com feedback humano para impulsionar o desempenho do modelo em um regime de baixo número de passos e mitigar a perda de desempenho causada pelo processo de destilação. Em terceiro lugar, integramos a destilação de pontuação para melhorar ainda mais a capacidade de geração do modelo em baixo número de passos e oferecemos a primeira tentativa de aproveitar um LoRA unificado para suportar o processo de inferência em todos os passos. Experimentos extensivos e estudos com usuários demonstram que o Hyper-SD alcança desempenho SOTA de 1 a 8 passos de inferência tanto para SDXL quanto para SD1.5. Por exemplo, o Hyper-SDXL supera o SDXL-Lightning em +0,68 no CLIP Score e +0,51 no Aes Score na inferência de 1 passo.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to
alleviate the computational overhead associated with the multi-step inference
process of Diffusion Models (DMs). Current distillation techniques often
dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii)
ODE Trajectory Reformulation. However, these approaches suffer from severe
performance degradation or domain shifts. To address these limitations, we
propose Hyper-SD, a novel framework that synergistically amalgamates the
advantages of ODE Trajectory Preservation and Reformulation, while maintaining
near-lossless performance during step compression. Firstly, we introduce
Trajectory Segmented Consistency Distillation to progressively perform
consistent distillation within pre-defined time-step segments, which
facilitates the preservation of the original ODE trajectory from a higher-order
perspective. Secondly, we incorporate human feedback learning to boost the
performance of the model in a low-step regime and mitigate the performance loss
incurred by the distillation process. Thirdly, we integrate score distillation
to further improve the low-step generation capability of the model and offer
the first attempt to leverage a unified LoRA to support the inference process
at all steps. Extensive experiments and user studies demonstrate that Hyper-SD
achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5.
For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and
+0.51 in Aes Score in the 1-step inference.