Hyper-SD: Modelo de Consistência Segmentado por Trajetória para Síntese Eficiente de Imagens

Resumo

Recentemente, surgiu uma série de algoritmos de destilação conscientes da difusão para aliviar a sobrecarga computacional associada ao processo de inferência em múltiplos passos dos Modelos de Difusão (DMs). As técnicas atuais de destilação frequentemente se dividem em dois aspectos distintos: i) Preservação da Trajetória ODE; e ii) Reformulação da Trajetória ODE. No entanto, essas abordagens sofrem com degradação severa de desempenho ou mudanças de domínio. Para abordar essas limitações, propomos o Hyper-SD, uma nova estrutura que sinergicamente combina as vantagens da Preservação e Reformulação da Trajetória ODE, mantendo um desempenho quase sem perdas durante a compressão de passos. Primeiramente, introduzimos a Destilação de Consistência Segmentada por Trajetória para realizar progressivamente a destilação consistente dentro de segmentos de passos de tempo pré-definidos, o que facilita a preservação da trajetória ODE original a partir de uma perspectiva de ordem superior. Em segundo lugar, incorporamos o aprendizado com feedback humano para impulsionar o desempenho do modelo em um regime de baixo número de passos e mitigar a perda de desempenho causada pelo processo de destilação. Em terceiro lugar, integramos a destilação de pontuação para melhorar ainda mais a capacidade de geração do modelo em baixo número de passos e oferecemos a primeira tentativa de aproveitar um LoRA unificado para suportar o processo de inferência em todos os passos. Experimentos extensivos e estudos com usuários demonstram que o Hyper-SD alcança desempenho SOTA de 1 a 8 passos de inferência tanto para SDXL quanto para SD1.5. Por exemplo, o Hyper-SDXL supera o SDXL-Lightning em +0,68 no CLIP Score e +0,51 no Aes Score na inferência de 1 passo.

English

Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.

Hyper-SD: Modelo de Consistência Segmentado por Trajetória para Síntese Eficiente de Imagens

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

Resumo

Support