ChatPaper.aiChatPaper

ProReflow: Прогрессивный рефлоу с декомпозицией скорости

ProReflow: Progressive Reflow with Decomposed Velocity

March 5, 2025
Авторы: Lei Ke, Haohang Xu, Xuefei Ning, Yu Li, Jiajun Li, Haoling Li, Yuxuan Lin, Dongsheng Jiang, Yujiu Yang, Linfeng Zhang
cs.AI

Аннотация

Диффузионные модели достигли значительного прогресса в генерации как изображений, так и видео, однако по-прежнему сталкиваются с высокими вычислительными затратами. В качестве эффективного решения, метод согласования потоков (flow matching) направлен на преобразование процесса диффузии в прямую линию, что позволяет осуществлять генерацию за несколько шагов или даже за один шаг. Однако в данной работе мы утверждаем, что исходный процесс обучения метода согласования потоков не является оптимальным, и предлагаем две техники для его улучшения. Во-первых, мы вводим прогрессивное согласование потоков (progressive reflow), которое постепенно преобразует диффузионные модели на локальных временных шагах до завершения всего процесса диффузии, снижая сложность согласования потоков. Во-вторых, мы предлагаем выравнивание v-предсказания (aligned v-prediction), которое подчеркивает важность согласования направления в методе согласования потоков по сравнению с согласованием величины. Экспериментальные результаты на моделях SDv1.5 и SDXL демонстрируют эффективность нашего метода. Например, применение на SDv1.5 позволяет достичь FID 10.70 на валидационном наборе MSCOCO2014 всего за 4 шага выборки, что близко к результату нашей учительской модели (32 шага DDIM, FID = 10.05).
English
Diffusion models have achieved significant progress in both image and video generation while still suffering from huge computation costs. As an effective solution, flow matching aims to reflow the diffusion process of diffusion models into a straight line for a few-step and even one-step generation. However, in this paper, we suggest that the original training pipeline of flow matching is not optimal and introduce two techniques to improve it. Firstly, we introduce progressive reflow, which progressively reflows the diffusion models in local timesteps until the whole diffusion progresses, reducing the difficulty of flow matching. Second, we introduce aligned v-prediction, which highlights the importance of direction matching in flow matching over magnitude matching. Experimental results on SDv1.5 and SDXL demonstrate the effectiveness of our method, for example, conducting on SDv1.5 achieves an FID of 10.70 on MSCOCO2014 validation set with only 4 sampling steps, close to our teacher model (32 DDIM steps, FID = 10.05).

Summary

AI-Generated Summary

PDF92March 10, 2025