Inversione e Modifica Semantica delle Immagini utilizzando Equazioni Differenziali Stocastiche Raddrizzate
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
October 14, 2024
Autori: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI
Abstract
I modelli generativi trasformano rumore casuale in immagini; la loro inversione mira a trasformare le immagini in rumore strutturato per il ripristino e l'editing. Questo articolo affronta due compiti chiave: (i) inversione e (ii) editing di un'immagine reale utilizzando equivalenti stocastici di modelli di flusso rettificato (come Flux). Anche se i Modelli a Diffusione (DMs) hanno recentemente dominato il campo della modellazione generativa per le immagini, la loro inversione presenta sfide di fedeltà ed editabilità a causa delle non linearità nella deriva e nella diffusione. Gli approcci di inversione DM all'avanguardia esistenti si basano sulla formazione di parametri aggiuntivi o sull'ottimizzazione dei parametri latenti al momento del test; entrambi sono costosi nella pratica. I Flussi Raddrizzati (RFs) offrono un'alternativa promettente ai modelli di diffusione, tuttavia la loro inversione è stata poco esplorata. Proponiamo l'inversione RF utilizzando un controllo ottimale dinamico derivato tramite un regolatore quadratico lineare. Dimostriamo che il campo vettoriale risultante è equivalente a un'equazione differenziale stocastica raddrizzata. Inoltre, estendiamo il nostro framework per progettare un campionatore stocastico per Flux. Il nostro metodo di inversione consente prestazioni all'avanguardia nell'inversione e nell'editing senza training, superando i lavori precedenti nella sintesi da tratto a immagine e nell'editing semantico delle immagini, con valutazioni umane su larga scala che confermano la preferenza dell'utente.
English
Generative models transform random noise into images; their inversion aims to
transform images back to structured noise for recovery and editing. This paper
addresses two key tasks: (i) inversion and (ii) editing of a real image using
stochastic equivalents of rectified flow models (such as Flux). Although
Diffusion Models (DMs) have recently dominated the field of generative modeling
for images, their inversion presents faithfulness and editability challenges
due to nonlinearities in drift and diffusion. Existing state-of-the-art DM
inversion approaches rely on training of additional parameters or test-time
optimization of latent variables; both are expensive in practice. Rectified
Flows (RFs) offer a promising alternative to diffusion models, yet their
inversion has been underexplored. We propose RF inversion using dynamic optimal
control derived via a linear quadratic regulator. We prove that the resulting
vector field is equivalent to a rectified stochastic differential equation.
Additionally, we extend our framework to design a stochastic sampler for Flux.
Our inversion method allows for state-of-the-art performance in zero-shot
inversion and editing, outperforming prior works in stroke-to-image synthesis
and semantic image editing, with large-scale human evaluations confirming user
preference.Summary
AI-Generated Summary