ChatPaper.aiChatPaper

修正された確率微分方程式を使用した意味論的画像反転と編集

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

October 14, 2024
著者: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI

要旨

生成モデルはランダムノイズを画像に変換します。その逆変換は、画像を構造化されたノイズに戻して回復や編集を目指します。本論文では、リアル画像の逆変換と編集を扱います。これには、リクティファイドフローモデル(Fluxなどの確率的な等価物)が使われます。最近、拡散モデル(DMs)が画像の生成モデリング分野で主導的でしたが、その逆変換は、ドリフトと拡散の非線形性による忠実性と編集可能性の課題があります。既存の最先端のDM逆変換手法は、追加パラメータのトレーニングや潜在変数のテスト時最適化に依存しており、いずれも実践的にはコストがかかります。リクティファイドフロー(RF)は、拡散モデルに有望な代替手法を提供しますが、その逆変換は未開拓の領域です。我々は、線形二次レギュレーターを用いて導出された動的最適制御を用いてRF逆変換を提案します。その結果得られるベクトル場がリクティファイド確率微分方程式と等価であることを証明します。さらに、Flux用の確率的サンプラーを設計するために我々のフレームワークを拡張します。当社の逆変換手法は、ゼロショット逆変換や編集において最先端の性能を実現し、ストロークから画像合成や意味的画像編集において従来の手法を上回り、大規模なユーザー評価によりユーザーの好みが確認されています。
English
Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Summary

AI-Generated Summary

PDF313November 16, 2024