Inversion sémantique d'images et édition à l'aide d'équations différentielles stochastiques rectifiées.
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
October 14, 2024
Auteurs: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI
Résumé
Les modèles génératifs transforment du bruit aléatoire en images ; leur inversion vise à transformer les images en bruit structuré pour la récupération et l'édition. Cet article aborde deux tâches clés : (i) l'inversion et (ii) l'édition d'une image réelle en utilisant des équivalents stochastiques de modèles de flux rectifiés (comme Flux). Bien que les Modèles de Diffusion (MD) aient récemment dominé le domaine de la modélisation générative pour les images, leur inversion présente des défis de fidélité et d'éditabilité en raison des non-linéarités dans la dérive et la diffusion. Les approches d'inversion d'état de l'art existantes des MD reposent sur l'entraînement de paramètres supplémentaires ou sur l'optimisation des variables latentes au moment du test ; les deux sont coûteux en pratique. Les Flux Rectifiés (RF) offrent une alternative prometteuse aux modèles de diffusion, cependant leur inversion a été peu explorée. Nous proposons une inversion RF en utilisant un contrôle optimal dynamique dérivé via un régulateur quadratique linéaire. Nous prouvons que le champ de vecteurs résultant est équivalent à une équation différentielle stochastique rectifiée. De plus, nous étendons notre cadre pour concevoir un échantillonneur stochastique pour Flux. Notre méthode d'inversion permet des performances de pointe en inversion et édition sans entraînement, surpassant les travaux antérieurs en synthèse d'image à partir de traits et en édition sémantique d'images, avec des évaluations humaines à grande échelle confirmant la préférence des utilisateurs.
English
Generative models transform random noise into images; their inversion aims to
transform images back to structured noise for recovery and editing. This paper
addresses two key tasks: (i) inversion and (ii) editing of a real image using
stochastic equivalents of rectified flow models (such as Flux). Although
Diffusion Models (DMs) have recently dominated the field of generative modeling
for images, their inversion presents faithfulness and editability challenges
due to nonlinearities in drift and diffusion. Existing state-of-the-art DM
inversion approaches rely on training of additional parameters or test-time
optimization of latent variables; both are expensive in practice. Rectified
Flows (RFs) offer a promising alternative to diffusion models, yet their
inversion has been underexplored. We propose RF inversion using dynamic optimal
control derived via a linear quadratic regulator. We prove that the resulting
vector field is equivalent to a rectified stochastic differential equation.
Additionally, we extend our framework to design a stochastic sampler for Flux.
Our inversion method allows for state-of-the-art performance in zero-shot
inversion and editing, outperforming prior works in stroke-to-image synthesis
and semantic image editing, with large-scale human evaluations confirming user
preference.Summary
AI-Generated Summary