ChatPaper.aiChatPaper

Hyper-SD: Modelo de Consistência Segmentado por Trajetória para Síntese Eficiente de Imagens

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

April 21, 2024
Autores: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI

Resumo

Recentemente, surgiu uma série de algoritmos de destilação conscientes da difusão para aliviar a sobrecarga computacional associada ao processo de inferência em múltiplos passos dos Modelos de Difusão (DMs). As técnicas atuais de destilação frequentemente se dividem em dois aspectos distintos: i) Preservação da Trajetória ODE; e ii) Reformulação da Trajetória ODE. No entanto, essas abordagens sofrem com degradação severa de desempenho ou mudanças de domínio. Para abordar essas limitações, propomos o Hyper-SD, uma nova estrutura que sinergicamente combina as vantagens da Preservação e Reformulação da Trajetória ODE, mantendo um desempenho quase sem perdas durante a compressão de passos. Primeiramente, introduzimos a Destilação de Consistência Segmentada por Trajetória para realizar progressivamente a destilação consistente dentro de segmentos de passos de tempo pré-definidos, o que facilita a preservação da trajetória ODE original a partir de uma perspectiva de ordem superior. Em segundo lugar, incorporamos o aprendizado com feedback humano para impulsionar o desempenho do modelo em um regime de baixo número de passos e mitigar a perda de desempenho causada pelo processo de destilação. Em terceiro lugar, integramos a destilação de pontuação para melhorar ainda mais a capacidade de geração do modelo em baixo número de passos e oferecemos a primeira tentativa de aproveitar um LoRA unificado para suportar o processo de inferência em todos os passos. Experimentos extensivos e estudos com usuários demonstram que o Hyper-SD alcança desempenho SOTA de 1 a 8 passos de inferência tanto para SDXL quanto para SD1.5. Por exemplo, o Hyper-SDXL supera o SDXL-Lightning em +0,68 no CLIP Score e +0,51 no Aes Score na inferência de 1 passo.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.
PDF282December 15, 2024