ChatPaper.aiChatPaper

Semantische Bildumkehr und Bearbeitung unter Verwendung von korrigierten stochastischen Differentialgleichungen

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

October 14, 2024
Autoren: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI

Zusammenfassung

Generative Modelle transformieren zufälliges Rauschen in Bilder; ihre Umkehrung zielt darauf ab, Bilder zurück in strukturiertes Rauschen zur Wiederherstellung und Bearbeitung zu transformieren. Dieser Artikel behandelt zwei Schlüsselaufgaben: (i) Umkehrung und (ii) Bearbeitung eines realen Bildes unter Verwendung stochastischer Äquivalente von rektifizierten Flussmodellen (wie Flux). Obwohl Diffusionsmodelle (DMs) in letzter Zeit das Feld der generativen Modellierung für Bilder dominiert haben, stellt ihre Umkehrung aufgrund von Nichtlinearitäten in Drift und Diffusion Herausforderungen in Bezug auf Treue und Bearbeitbarkeit dar. Bestehende state-of-the-art DM-Umkehrungsansätze beruhen auf dem Training zusätzlicher Parameter oder der Optimierung latenter Variablen zur Testzeit; beides ist in der Praxis teuer. Rektifizierte Flüsse (RFs) bieten eine vielversprechende Alternative zu Diffusionsmodellen, jedoch wurde ihre Umkehrung bisher wenig erforscht. Wir schlagen vor, die Umkehrung von RFs unter Verwendung einer dynamischen optimalen Steuerung vorzunehmen, die über einen linearen quadratischen Regler abgeleitet wird. Wir zeigen, dass das resultierende Vektorfeld äquivalent zu einer rektifizierten stochastischen Differentialgleichung ist. Darüber hinaus erweitern wir unser Framework, um einen stochastischen Sampler für Flux zu entwerfen. Unsere Umkehrungsmethode ermöglicht eine state-of-the-art Leistung bei der Null-Schuss-Umkehrung und Bearbeitung und übertrifft frühere Arbeiten in der Synthese von Strich-zu-Bild und der semantischen Bildbearbeitung, wobei umfangreiche menschliche Bewertungen die Benutzerpräferenz bestätigen.
English
Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Summary

AI-Generated Summary

PDF313November 16, 2024