Inversão e Edição Semântica de Imagens usando Equações Diferenciais Estocásticas Retificadas

Resumo

Modelos generativos transformam ruído aleatório em imagens; sua inversão visa transformar imagens de volta em ruído estruturado para recuperação e edição. Este artigo aborda duas tarefas-chave: (i) inversão e (ii) edição de uma imagem real usando equivalentes estocásticos de modelos de fluxo retificado (como Flux). Embora os Modelos de Difusão (DMs) tenham dominado recentemente o campo da modelagem generativa para imagens, sua inversão apresenta desafios de fidelidade e editabilidade devido a não linearidades no deslocamento e difusão. As abordagens de inversão de DMs de última geração existentes dependem do treinamento de parâmetros adicionais ou da otimização de variáveis latentes no tempo de teste; ambos são caros na prática. Os Fluxos Retificados (RFs) oferecem uma alternativa promissora aos modelos de difusão, no entanto, sua inversão tem sido pouco explorada. Propomos a inversão de RF usando controle ótimo dinâmico derivado por meio de um regulador quadrático linear. Provamos que o campo vetorial resultante é equivalente a uma equação diferencial estocástica retificada. Além disso, estendemos nosso framework para projetar um amostrador estocástico para Flux. Nosso método de inversão permite um desempenho de última geração na inversão e edição de zero-shot, superando trabalhos anteriores na síntese de imagem a partir de traços e edição semântica de imagem, com avaliações humanas em larga escala confirmando a preferência do usuário.

English

Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Inversão e Edição Semântica de Imagens usando Equações Diferenciais Estocásticas Retificadas

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Resumo

Support