ChatPaper.aiChatPaper

Inversione e Modifica Semantica delle Immagini utilizzando Equazioni Differenziali Stocastiche Raddrizzate

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

October 14, 2024
Autori: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI

Abstract

I modelli generativi trasformano rumore casuale in immagini; la loro inversione mira a trasformare le immagini in rumore strutturato per il ripristino e l'editing. Questo articolo affronta due compiti chiave: (i) inversione e (ii) editing di un'immagine reale utilizzando equivalenti stocastici di modelli di flusso rettificato (come Flux). Anche se i Modelli a Diffusione (DMs) hanno recentemente dominato il campo della modellazione generativa per le immagini, la loro inversione presenta sfide di fedeltà ed editabilità a causa delle non linearità nella deriva e nella diffusione. Gli approcci di inversione DM all'avanguardia esistenti si basano sulla formazione di parametri aggiuntivi o sull'ottimizzazione dei parametri latenti al momento del test; entrambi sono costosi nella pratica. I Flussi Raddrizzati (RFs) offrono un'alternativa promettente ai modelli di diffusione, tuttavia la loro inversione è stata poco esplorata. Proponiamo l'inversione RF utilizzando un controllo ottimale dinamico derivato tramite un regolatore quadratico lineare. Dimostriamo che il campo vettoriale risultante è equivalente a un'equazione differenziale stocastica raddrizzata. Inoltre, estendiamo il nostro framework per progettare un campionatore stocastico per Flux. Il nostro metodo di inversione consente prestazioni all'avanguardia nell'inversione e nell'editing senza training, superando i lavori precedenti nella sintesi da tratto a immagine e nell'editing semantico delle immagini, con valutazioni umane su larga scala che confermano la preferenza dell'utente.
English
Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Summary

AI-Generated Summary

PDF313November 16, 2024