Difusão Retificada: Retidão Não é Necessária em Fluxo Retificado
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow
October 9, 2024
Autores: Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
cs.AI
Resumo
Os modelos de difusão melhoraram significativamente a geração visual, mas são prejudicados pela lentidão de geração devido à natureza computacionalmente intensiva da resolução de EDOs generativas. O fluxo retificado, uma solução amplamente reconhecida, melhora a velocidade de geração endireitando o caminho da EDO. Seus principais componentes incluem: 1) o uso da forma de difusão de correspondência de fluxo, 2) a utilização de previsão em negrito v-prediction e 3) a realização de retificação (também conhecida como refluxo). Neste artigo, argumentamos que o sucesso da retificação reside principalmente no uso de um modelo de difusão pré-treinado para obter pares correspondentes de ruído e amostras, seguido de um retrabalho com esses pares de ruído-amostra correspondentes. Com base nisso, os componentes 1) e 2) são desnecessários. Além disso, destacamos que a retidão não é um alvo de treinamento essencial para a retificação; ao invés disso, é um caso específico de modelos de correspondência de fluxo. O alvo de treinamento mais crítico é alcançar um caminho de EDO aproximado de primeira ordem, que é inherentemente curvo para modelos como DDPM e Sub-VP. Com base nessa percepção, propomos a Difusão Retificada, que generaliza o espaço de design e o escopo de aplicação da retificação para abranger a categoria mais ampla de modelos de difusão, em vez de ser restrito a modelos de correspondência de fluxo. Validamos nosso método no Stable Diffusion v1-5 e no Stable Diffusion XL. Nosso método não apenas simplifica significativamente o procedimento de treinamento de trabalhos anteriores baseados em fluxo retificado (por exemplo, InstaFlow), mas também alcança um desempenho superior com um custo de treinamento ainda menor. Nosso código está disponível em https://github.com/G-U-N/Rectified-Diffusion.
English
Diffusion models have greatly improved visual generation but are hindered by
slow generation speed due to the computationally intensive nature of solving
generative ODEs. Rectified flow, a widely recognized solution, improves
generation speed by straightening the ODE path. Its key components include: 1)
using the diffusion form of flow-matching, 2) employing boldsymbol
v-prediction, and 3) performing rectification (a.k.a. reflow). In this paper,
we argue that the success of rectification primarily lies in using a pretrained
diffusion model to obtain matched pairs of noise and samples, followed by
retraining with these matched noise-sample pairs. Based on this, components 1)
and 2) are unnecessary. Furthermore, we highlight that straightness is not an
essential training target for rectification; rather, it is a specific case of
flow-matching models. The more critical training target is to achieve a
first-order approximate ODE path, which is inherently curved for models like
DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion,
which generalizes the design space and application scope of rectification to
encompass the broader category of diffusion models, rather than being
restricted to flow-matching models. We validate our method on Stable Diffusion
v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the
training procedure of rectified flow-based previous works (e.g., InstaFlow) but
also achieves superior performance with even lower training cost. Our code is
available at https://github.com/G-U-N/Rectified-Diffusion.