Diffusione Raddrizzata: La Linearità Non è Necessaria nel Flusso Raddrizzato
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Autori: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Abstract
I modelli di diffusione hanno notevolmente migliorato la generazione visuale, ma sono ostacolati dalla lenta velocità di generazione a causa della natura computazionalmente intensiva della risoluzione delle equazioni differenziali ordinarie generative. Il flusso rettificato, una soluzione ampiamente riconosciuta, migliora la velocità di generazione rettificando il percorso delle equazioni differenziali ordinarie. I suoi componenti chiave includono: 1) l'utilizzo della forma di diffusione del flusso-corrispondenza, 2) l'impiego della previsione in grassetto v e 3) l'esecuzione della rettificazione (nota anche come riflusso). In questo articolo, sosteniamo che il successo della rettificazione risieda principalmente nell'utilizzo di un modello di diffusione preaddestrato per ottenere coppie corrispondenti di rumore e campioni, seguito dal ritraining con tali coppie rumore-campioni corrispondenti. Sulla base di ciò, i componenti 1) e 2) non sono necessari. Inoltre, sottolineiamo che la linearità non è un obiettivo di addestramento essenziale per la rettificazione; piuttosto, è un caso specifico dei modelli di flusso-corrispondenza. L'obiettivo di addestramento più critico è raggiungere un percorso di equazioni differenziali ordinarie approssimativamente di primo ordine, che è intrinsecamente curvo per modelli come DDPM e Sub-VP. Basandoci su questa intuizione, proponiamo la Diffusione Rettificata, che generalizza lo spazio di progettazione e l'ambito di applicazione della rettificazione per includere la più ampia categoria di modelli di diffusione, anziché essere limitata ai modelli di flusso-corrispondenza. Convalidiamo il nostro metodo su Stable Diffusion v1-5 e Stable Diffusion XL. Il nostro metodo non solo semplifica notevolmente la procedura di addestramento dei lavori precedenti basati sul flusso rettificato (ad esempio, InstaFlow), ma ottiene anche prestazioni superiori con costi di addestramento ancora più bassi. Il nostro codice è disponibile su https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.