Семантическое инвертирование и редактирование изображений с использованием исправленных стохастических дифференциальных уравнений.
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations
October 14, 2024
Авторы: Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
cs.AI
Аннотация
Генеративные модели преобразуют случайный шум в изображения; их инверсия направлена на преобразование изображений обратно в структурированный шум для восстановления и редактирования. В данной статье рассматриваются две ключевые задачи: (i) инверсия и (ii) редактирование реального изображения с использованием стохастических эквивалентов моделей прямого потока (например, Flux). Хотя модели диффузии (DM) недавно доминировали в области генеративного моделирования изображений, их инверсия представляет вызовы верности и редактирования из-за нелинейностей в дрейфе и диффузии. Существующие передовые подходы к инверсии DM полагаются на обучение дополнительных параметров или оптимизацию скрытых переменных во время тестирования; оба подхода дороги на практике. Модели прямого потока (RF) предлагают многообещающую альтернативу моделям диффузии, однако их инверсия была недостаточно изучена. Мы предлагаем инверсию RF с использованием динамического оптимального управления, выведенного с помощью линейного квадратичного регулятора. Мы доказываем, что полученное векторное поле эквивалентно прямому стохастическому дифференциальному уравнению. Кроме того, мы расширяем нашу методику для разработки стохастического сэмплера для Flux. Наш метод инверсии позволяет добиться передовой производительности в инверсии и редактировании с нулевой точки, превосходя предыдущие работы в синтезе рисунка из штриха и семантическом редактировании изображений, с подтверждением предпочтения пользователей по результатам масштабных оценок.
English
Generative models transform random noise into images; their inversion aims to
transform images back to structured noise for recovery and editing. This paper
addresses two key tasks: (i) inversion and (ii) editing of a real image using
stochastic equivalents of rectified flow models (such as Flux). Although
Diffusion Models (DMs) have recently dominated the field of generative modeling
for images, their inversion presents faithfulness and editability challenges
due to nonlinearities in drift and diffusion. Existing state-of-the-art DM
inversion approaches rely on training of additional parameters or test-time
optimization of latent variables; both are expensive in practice. Rectified
Flows (RFs) offer a promising alternative to diffusion models, yet their
inversion has been underexplored. We propose RF inversion using dynamic optimal
control derived via a linear quadratic regulator. We prove that the resulting
vector field is equivalent to a rectified stochastic differential equation.
Additionally, we extend our framework to design a stochastic sampler for Flux.
Our inversion method allows for state-of-the-art performance in zero-shot
inversion and editing, outperforming prior works in stroke-to-image synthesis
and semantic image editing, with large-scale human evaluations confirming user
preference.Summary
AI-Generated Summary