ChatPaper.aiChatPaper

Hyper-SD: 효율적인 이미지 생성을 위한 궤적 분할 일관성 모델

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

April 21, 2024
저자: Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao
cs.AI

초록

최근, 확산 모델(Diffusion Models, DMs)의 다단계 추론 과정과 관련된 계산 오버헤드를 완화하기 위해 일련의 확산 인지 증류(diffusion-aware distillation) 알고리즘이 등장했습니다. 현재의 증류 기술은 주로 두 가지 측면으로 나뉩니다: i) ODE 궤적 보존(ODE Trajectory Preservation); ii) ODE 궤적 재구성(ODE Trajectory Reformulation). 그러나 이러한 접근법은 심각한 성능 저하나 도메인 변화를 겪는 문제가 있습니다. 이러한 한계를 해결하기 위해, 우리는 ODE 궤적 보존과 재구성의 장점을 시너지적으로 결합하면서도 단계 압축 과정에서 거의 손실 없는 성능을 유지하는 새로운 프레임워크인 Hyper-SD를 제안합니다. 첫째, 우리는 미리 정의된 시간 단계 세그먼트 내에서 점진적으로 일관된 증류를 수행하는 궤적 분할 일관성 증류(Trajectory Segmented Consistency Distillation)를 도입하여, 고차원적 관점에서 원본 ODE 궤적을 보존할 수 있도록 합니다. 둘째, 인간 피드백 학습을 통합하여 저단계(low-step) 영역에서 모델의 성능을 향상시키고 증류 과정에서 발생하는 성능 손실을 완화합니다. 셋째, 점수 증류(score distillation)를 통합하여 모델의 저단계 생성 능력을 더욱 개선하고, 모든 단계에서 추론 과정을 지원하기 위해 통합된 LoRA를 활용하는 첫 번째 시도를 제공합니다. 광범위한 실험과 사용자 연구를 통해 Hyper-SD가 SDXL과 SD1.5 모두에서 1~8단계 추론에서 SOTA 성능을 달성함을 입증했습니다. 예를 들어, Hyper-SDXL은 1단계 추론에서 SDXL-Lightning보다 CLIP Score에서 +0.68, Aes Score에서 +0.51의 우수한 성능을 보였습니다.
English
Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.

Summary

AI-Generated Summary

PDF292December 15, 2024