Modelos de Fluxo Retificado de Direção no Campo Vetorial para Geração de Imagens Controlada
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation
November 27, 2024
Autores: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI
Resumo
Os modelos de difusão (DMs) destacam-se no fotorealismo, edição de imagens e resolução de problemas inversos, auxiliados por orientação sem classificador e técnicas de inversão de imagem. No entanto, os modelos de fluxo retificado (RFMs) permanecem pouco explorados para essas tarefas. Métodos existentes baseados em DM frequentemente exigem treinamento adicional, carecem de generalização para modelos latentes pré-treinados, têm desempenho inferior e demandam recursos computacionais significativos devido à extensa retropropagação por solucionadores de EDO e processos de inversão. Neste trabalho, primeiro desenvolvemos uma compreensão teórica e empírica da dinâmica do campo vetorial dos RFMs para guiar de forma eficiente a trajetória de remoção de ruído. Nossas descobertas revelam que podemos navegar no campo vetorial de maneira determinística e livre de gradientes. Aproveitando essa propriedade, propomos o FlowChef, que utiliza o campo vetorial para direcionar a trajetória de remoção de ruído para tarefas controladas de geração de imagens, facilitadas por pulos de gradientes. O FlowChef é um framework unificado para geração de imagens controladas que, pela primeira vez, aborda simultaneamente orientação de classificador, problemas inversos lineares e edição de imagens sem a necessidade de treinamento adicional, inversão ou retropropagação intensiva. Por fim, realizamos extensas avaliações e demonstramos que o FlowChef supera significativamente as bases em termos de desempenho, memória e requisitos de tempo, alcançando novos resultados de ponta. Página do Projeto: https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving
inverse problems, aided by classifier-free guidance and image inversion
techniques. However, rectified flow models (RFMs) remain underexplored for
these tasks. Existing DM-based methods often require additional training, lack
generalization to pretrained latent models, underperform, and demand
significant computational resources due to extensive backpropagation through
ODE solvers and inversion processes. In this work, we first develop a
theoretical and empirical understanding of the vector field dynamics of RFMs in
efficiently guiding the denoising trajectory. Our findings reveal that we can
navigate the vector field in a deterministic and gradient-free manner.
Utilizing this property, we propose FlowChef, which leverages the vector field
to steer the denoising trajectory for controlled image generation tasks,
facilitated by gradient skipping. FlowChef is a unified framework for
controlled image generation that, for the first time, simultaneously addresses
classifier guidance, linear inverse problems, and image editing without the
need for extra training, inversion, or intensive backpropagation. Finally, we
perform extensive evaluations and show that FlowChef significantly outperforms
baselines in terms of performance, memory, and time requirements, achieving new
state-of-the-art results. Project Page: https://flowchef.github.io.Summary
AI-Generated Summary