Difusión Rectificada: La Rectitud No Es Tu Necesidad en el Flujo Rectificado
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Autores: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Resumen
Los modelos de difusión han mejorado significativamente la generación visual, pero se ven obstaculizados por la lenta velocidad de generación debido a la naturaleza intensiva computacional de resolver ODEs generativos. El flujo rectificado, una solución ampliamente reconocida, mejora la velocidad de generación al enderezar la trayectoria de la ODE. Sus componentes clave incluyen: 1) utilizar la forma de difusión de coincidencia de flujo, 2) emplear la predicción en negrita v y 3) realizar la rectificación (también conocida como reflujo). En este documento, argumentamos que el éxito de la rectificación radica principalmente en el uso de un modelo de difusión preentrenado para obtener pares coincidentes de ruido y muestras, seguido de un nuevo entrenamiento con estos pares de ruido-muestra coincidentes. Basándonos en esto, los componentes 1) y 2) son innecesarios. Además, destacamos que la rectitud no es un objetivo de entrenamiento esencial para la rectificación; más bien, es un caso específico de modelos de coincidencia de flujo. El objetivo de entrenamiento más crítico es lograr una aproximación de primer orden de la trayectoria de la ODE, que es inherentemente curva para modelos como DDPM y Sub-VP. Basándonos en esta idea, proponemos Difusión Rectificada, que generaliza el espacio de diseño y el alcance de aplicación de la rectificación para abarcar la categoría más amplia de modelos de difusión, en lugar de estar restringido a modelos de coincidencia de flujo. Validamos nuestro método en Stable Diffusion v1-5 y Stable Diffusion XL. Nuestro método no solo simplifica en gran medida el procedimiento de entrenamiento de trabajos anteriores basados en flujo rectificado (por ejemplo, InstaFlow), sino que también logra un rendimiento superior con un costo de entrenamiento aún menor. Nuestro código está disponible en https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.Summary
AI-Generated Summary