ChatPaper.aiChatPaper

Hyper-SD: Modelo de Consistencia Segmentado por Trayectoria para la Síntesis Eficiente de Imágenes

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

April 21, 2024
Autores: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI

Resumen

Recientemente, ha surgido una serie de algoritmos de destilación conscientes de la difusión para aliviar la sobrecarga computacional asociada con el proceso de inferencia de múltiples pasos de los Modelos de Difusión (DMs). Las técnicas actuales de destilación a menudo se dividen en dos aspectos distintos: i) Preservación de la Trayectoria ODE; y ii) Reformulación de la Trayectoria ODE. Sin embargo, estos enfoques sufren de una degradación severa del rendimiento o cambios de dominio. Para abordar estas limitaciones, proponemos Hyper-SD, un marco novedoso que combina sinérgicamente las ventajas de la Preservación y Reformulación de la Trayectoria ODE, manteniendo un rendimiento casi sin pérdidas durante la compresión de pasos. En primer lugar, introducimos la Destilación de Consistencia Segmentada por Trayectoria para realizar progresivamente una destilación consistente dentro de segmentos de pasos de tiempo predefinidos, lo que facilita la preservación de la trayectoria ODE original desde una perspectiva de orden superior. En segundo lugar, incorporamos el aprendizaje basado en retroalimentación humana para mejorar el rendimiento del modelo en un régimen de pocos pasos y mitigar la pérdida de rendimiento causada por el proceso de destilación. En tercer lugar, integramos la destilación de puntuación para mejorar aún más la capacidad de generación de pocos pasos del modelo y ofrecemos el primer intento de aprovechar un LoRA unificado para apoyar el proceso de inferencia en todos los pasos. Experimentos extensos y estudios de usuarios demuestran que Hyper-SD logra un rendimiento SOTA de 1 a 8 pasos de inferencia tanto para SDXL como para SD1.5. Por ejemplo, Hyper-SDXL supera a SDXL-Lightning en +0.68 en CLIP Score y +0.51 en Aes Score en la inferencia de 1 paso.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.
PDF292December 15, 2024