Modèles de flux rectifiés de direction dans le champ vectoriel pour la génération d'images contrôlée
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation
November 27, 2024
Auteurs: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI
Résumé
Les modèles de diffusion (DM) excellent dans le photoréalisme, l'édition d'images et la résolution de problèmes inverses, grâce à des techniques de guidage sans classificateur et d'inversion d'images. Cependant, les modèles de flux rectifié (RFMs) restent peu explorés pour ces tâches. Les méthodes existantes basées sur les DM nécessitent souvent une formation supplémentaire, manquent de généralisation aux modèles latents pré-entraînés, sous-performent et exigent des ressources computationnelles significatives en raison de la rétropropagation intensive à travers les solveurs d'EDO et les processus d'inversion. Dans ce travail, nous développons d'abord une compréhension théorique et empirique de la dynamique des champs de vecteurs des RFMs pour guider efficacement la trajectoire de débruitage. Nos résultats révèlent que nous pouvons naviguer dans le champ de vecteurs de manière déterministe et sans gradient. En exploitant cette propriété, nous proposons FlowChef, qui tire parti du champ de vecteurs pour diriger la trajectoire de débruitage pour des tâches de génération d'images contrôlées, facilitée par le saut de gradient. FlowChef est un cadre unifié pour la génération d'images contrôlées qui, pour la première fois, aborde simultanément le guidage par classificateur, les problèmes inverses linéaires et l'édition d'images sans nécessiter de formation supplémentaire, d'inversion ou de rétropropagation intensive. Enfin, nous effectuons des évaluations approfondies et montrons que FlowChef surpasse significativement les bases en termes de performances, de mémoire et d'exigences temporelles, atteignant de nouveaux résultats de pointe. Page du projet : https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving
inverse problems, aided by classifier-free guidance and image inversion
techniques. However, rectified flow models (RFMs) remain underexplored for
these tasks. Existing DM-based methods often require additional training, lack
generalization to pretrained latent models, underperform, and demand
significant computational resources due to extensive backpropagation through
ODE solvers and inversion processes. In this work, we first develop a
theoretical and empirical understanding of the vector field dynamics of RFMs in
efficiently guiding the denoising trajectory. Our findings reveal that we can
navigate the vector field in a deterministic and gradient-free manner.
Utilizing this property, we propose FlowChef, which leverages the vector field
to steer the denoising trajectory for controlled image generation tasks,
facilitated by gradient skipping. FlowChef is a unified framework for
controlled image generation that, for the first time, simultaneously addresses
classifier guidance, linear inverse problems, and image editing without the
need for extra training, inversion, or intensive backpropagation. Finally, we
perform extensive evaluations and show that FlowChef significantly outperforms
baselines in terms of performance, memory, and time requirements, achieving new
state-of-the-art results. Project Page: https://flowchef.github.io.