Семантическое инвертирование и редактирование изображений с использованием исправленных стохастических дифференциальных уравнений.

Аннотация

Генеративные модели преобразуют случайный шум в изображения; их инверсия направлена на преобразование изображений обратно в структурированный шум для восстановления и редактирования. В данной статье рассматриваются две ключевые задачи: (i) инверсия и (ii) редактирование реального изображения с использованием стохастических эквивалентов моделей прямого потока (например, Flux). Хотя модели диффузии (DM) недавно доминировали в области генеративного моделирования изображений, их инверсия представляет вызовы верности и редактирования из-за нелинейностей в дрейфе и диффузии. Существующие передовые подходы к инверсии DM полагаются на обучение дополнительных параметров или оптимизацию скрытых переменных во время тестирования; оба подхода дороги на практике. Модели прямого потока (RF) предлагают многообещающую альтернативу моделям диффузии, однако их инверсия была недостаточно изучена. Мы предлагаем инверсию RF с использованием динамического оптимального управления, выведенного с помощью линейного квадратичного регулятора. Мы доказываем, что полученное векторное поле эквивалентно прямому стохастическому дифференциальному уравнению. Кроме того, мы расширяем нашу методику для разработки стохастического сэмплера для Flux. Наш метод инверсии позволяет добиться передовой производительности в инверсии и редактировании с нулевой точки, превосходя предыдущие работы в синтезе рисунка из штриха и семантическом редактировании изображений, с подтверждением предпочтения пользователей по результатам масштабных оценок.

English

Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.

Семантическое инвертирование и редактирование изображений с использованием исправленных стохастических дифференциальных уравнений.

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Аннотация

Support