ProReflow: 분해된 속도를 활용한 점진적 리플로우
ProReflow: Progressive Reflow with Decomposed Velocity
March 5, 2025
저자: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI
초록
디퓨전 모델은 이미지 및 비디오 생성 분야에서 상당한 진전을 이루었지만 여전히 막대한 계산 비용이 발생하는 문제가 있습니다. 이를 해결하기 위한 효과적인 방법으로, 플로우 매칭(flow matching)은 디퓨전 모델의 디퓨전 과정을 직선으로 재구성하여 적은 단계 또는 심지어 단일 단계로 생성할 수 있도록 합니다. 그러나 본 논문에서는 기존 플로우 매칭의 학습 파이프라인이 최적이 아니라고 지적하고, 이를 개선하기 위한 두 가지 기법을 제안합니다. 첫째, 점진적 리플로우(progressive reflow)를 도입하여 디퓨전 모델을 로컬 타임스텝에서 점진적으로 재구성함으로써 전체 디퓨전 과정을 개선하고 플로우 매칭의 난이도를 줄입니다. 둘째, 정렬된 v-예측(aligned v-prediction)을 도입하여 플로우 매칭에서 크기 매칭보다 방향 매칭의 중요성을 강조합니다. SDv1.5와 SDXL에 대한 실험 결과는 우리의 방법의 효과를 입증합니다. 예를 들어, SDv1.5에서 MSCOCO2014 검증 세트에 대해 4개의 샘플링 단계만으로 FID 10.70을 달성하여, 교사 모델(32 DDIM 단계, FID = 10.05)에 근접한 성능을 보였습니다.
English
Diffusion models have achieved significant progress in both image and video
generation while still suffering from huge computation costs. As an effective
solution, flow matching aims to reflow the diffusion process of diffusion
models into a straight line for a few-step and even one-step generation.
However, in this paper, we suggest that the original training pipeline of flow
matching is not optimal and introduce two techniques to improve it. Firstly, we
introduce progressive reflow, which progressively reflows the diffusion models
in local timesteps until the whole diffusion progresses, reducing the
difficulty of flow matching. Second, we introduce aligned v-prediction, which
highlights the importance of direction matching in flow matching over magnitude
matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness
of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on
MSCOCO2014 validation set with only 4 sampling steps, close to our teacher
model (32 DDIM steps, FID = 10.05).Summary
AI-Generated Summary