Исправленное диффузное: Прямота не является вашей необходимостью в исправленном потоке
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Авторы: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Аннотация
Модели диффузии значительно улучшили визуальную генерацию, но затруднены медленной скоростью генерации из-за вычислительно интенсивного характера решения генеративных ОДУ. Выпрямленный поток, широко признанное решение, улучшает скорость генерации путем выпрямления пути ОДУ. Его ключевые компоненты включают: 1) использование диффузионной формы соответствия потоков, 2) применение жирного символа v-предсказания и 3) выполнение выпрямления (также известного как рефлоу). В данной работе мы утверждаем, что успех выпрямления в первую очередь заключается в использовании предварительно обученной модели диффузии для получения согласованных пар шума и образцов, за которым следует повторное обучение с этими согласованными парами шума-образца. Исходя из этого, компоненты 1) и 2) излишни. Более того, мы подчеркиваем, что прямолинейность не является существенной целью обучения для выпрямления; скорее, это конкретный случай моделей соответствия потоков. Более критической целью обучения является достижение приближенного к первому порядку пути ОДУ, который по своей сути изогнут для моделей, таких как DDPM и Sub-VP. Основываясь на этом, мы предлагаем Модифицированную Диффузию, которая обобщает пространство проектирования и область применения выпрямления, чтобы охватить более широкую категорию моделей диффузии, вместо ограничения только моделями соответствия потоков. Мы проверяем наш метод на Stable Diffusion v1-5 и Stable Diffusion XL. Наш метод не только значительно упрощает процедуру обучения предыдущих работ на основе выпрямленного потока (например, InstaFlow), но и достигает превосходной производительности даже при более низкой стоимости обучения. Наш код доступен по адресу https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.Summary
AI-Generated Summary