Inversion sémantique d'images et édition à l'aide d'équations différentielles stochastiques rectifiées.

papers.abstract

Les modèles génératifs transforment du bruit aléatoire en images ; leur inversion vise à transformer les images en bruit structuré pour la récupération et l'édition. Cet article aborde deux tâches clés : (i) l'inversion et (ii) l'édition d'une image réelle en utilisant des équivalents stochastiques de modèles de flux rectifiés (comme Flux). Bien que les Modèles de Diffusion (MD) aient récemment dominé le domaine de la modélisation générative pour les images, leur inversion présente des défis de fidélité et d'éditabilité en raison des non-linéarités dans la dérive et la diffusion. Les approches d'inversion d'état de l'art existantes des MD reposent sur l'entraînement de paramètres supplémentaires ou sur l'optimisation des variables latentes au moment du test ; les deux sont coûteux en pratique. Les Flux Rectifiés (RF) offrent une alternative prometteuse aux modèles de diffusion, cependant leur inversion a été peu explorée. Nous proposons une inversion RF en utilisant un contrôle optimal dynamique dérivé via un régulateur quadratique linéaire. Nous prouvons que le champ de vecteurs résultant est équivalent à une équation différentielle stochastique rectifiée. De plus, nous étendons notre cadre pour concevoir un échantillonneur stochastique pour Flux. Notre méthode d'inversion permet des performances de pointe en inversion et édition sans entraînement, surpassant les travaux antérieurs en synthèse d'image à partir de traits et en édition sémantique d'images, avec des évaluations humaines à grande échelle confirmant la préférence des utilisateurs.

English

Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Inversion sémantique d'images et édition à l'aide d'équations différentielles stochastiques rectifiées.

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

papers.abstract

Support