Inversão e Edição Semântica de Imagens usando Equações Diferenciais Estocásticas Retificadas
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
October 14, 2024
Autores: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI
Resumo
Modelos generativos transformam ruído aleatório em imagens; sua inversão visa transformar imagens de volta em ruído estruturado para recuperação e edição. Este artigo aborda duas tarefas-chave: (i) inversão e (ii) edição de uma imagem real usando equivalentes estocásticos de modelos de fluxo retificado (como Flux). Embora os Modelos de Difusão (DMs) tenham dominado recentemente o campo da modelagem generativa para imagens, sua inversão apresenta desafios de fidelidade e editabilidade devido a não linearidades no deslocamento e difusão. As abordagens de inversão de DMs de última geração existentes dependem do treinamento de parâmetros adicionais ou da otimização de variáveis latentes no tempo de teste; ambos são caros na prática. Os Fluxos Retificados (RFs) oferecem uma alternativa promissora aos modelos de difusão, no entanto, sua inversão tem sido pouco explorada. Propomos a inversão de RF usando controle ótimo dinâmico derivado por meio de um regulador quadrático linear. Provamos que o campo vetorial resultante é equivalente a uma equação diferencial estocástica retificada. Além disso, estendemos nosso framework para projetar um amostrador estocástico para Flux. Nosso método de inversão permite um desempenho de última geração na inversão e edição de zero-shot, superando trabalhos anteriores na síntese de imagem a partir de traços e edição semântica de imagem, com avaliações humanas em larga escala confirmando a preferência do usuário.
English
Generative models transform random noise into images; their inversion aims to
transform images back to structured noise for recovery and editing. This paper
addresses two key tasks: (i) inversion and (ii) editing of a real image using
stochastic equivalents of rectified flow models (such as Flux). Although
Diffusion Models (DMs) have recently dominated the field of generative modeling
for images, their inversion presents faithfulness and editability challenges
due to nonlinearities in drift and diffusion. Existing state-of-the-art DM
inversion approaches rely on training of additional parameters or test-time
optimization of latent variables; both are expensive in practice. Rectified
Flows (RFs) offer a promising alternative to diffusion models, yet their
inversion has been underexplored. We propose RF inversion using dynamic optimal
control derived via a linear quadratic regulator. We prove that the resulting
vector field is equivalent to a rectified stochastic differential equation.
Additionally, we extend our framework to design a stochastic sampler for Flux.
Our inversion method allows for state-of-the-art performance in zero-shot
inversion and editing, outperforming prior works in stroke-to-image synthesis
and semantic image editing, with large-scale human evaluations confirming user
preference.Summary
AI-Generated Summary