Управление моделями векторного поля для генерации изображений с коррекцией потока движения
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation
November 27, 2024
Авторы: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI
Аннотация
Модели диффузии (DM) превосходят в фотореализме, редактировании изображений и решении обратных задач, благодаря отсутствию классификаторов и техникам инверсии изображений. Однако модели прямого потока (RFM) остаются малоисследованными для этих задач. Существующие методы на основе DM часто требуют дополнительного обучения, не обладают обобщением на предварительно обученные латентные модели, показывают низкую производительность и требуют значительных вычислительных ресурсов из-за обширного обратного распространения через решатели ОДУ и процессы инверсии. В данной работе мы в первую очередь разрабатываем теоретическое и эмпирическое понимание динамики векторного поля RFM для эффективного управления траекторией удаления шума. Наши результаты показывают, что мы можем навигировать векторное поле детерминированным и безградиентным способом. Используя это свойство, мы предлагаем FlowChef, который использует векторное поле для управления траекторией удаления шума для контролируемых задач генерации изображений, с помощью пропуска градиента. FlowChef - это единая структура для контролируемой генерации изображений, которая впервые одновременно решает задачи классификации, линейных обратных задач и редактирования изображений без необходимости дополнительного обучения, инверсии или интенсивного обратного распространения. Наконец, мы проводим обширные оценки и показываем, что FlowChef значительно превосходит базовые показатели по производительности, памяти и временным затратам, достигая новых результатов, являющихся лучшими в своем классе. Страница проекта: https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving
inverse problems, aided by classifier-free guidance and image inversion
techniques. However, rectified flow models (RFMs) remain underexplored for
these tasks. Existing DM-based methods often require additional training, lack
generalization to pretrained latent models, underperform, and demand
significant computational resources due to extensive backpropagation through
ODE solvers and inversion processes. In this work, we first develop a
theoretical and empirical understanding of the vector field dynamics of RFMs in
efficiently guiding the denoising trajectory. Our findings reveal that we can
navigate the vector field in a deterministic and gradient-free manner.
Utilizing this property, we propose FlowChef, which leverages the vector field
to steer the denoising trajectory for controlled image generation tasks,
facilitated by gradient skipping. FlowChef is a unified framework for
controlled image generation that, for the first time, simultaneously addresses
classifier guidance, linear inverse problems, and image editing without the
need for extra training, inversion, or intensive backpropagation. Finally, we
perform extensive evaluations and show that FlowChef significantly outperforms
baselines in terms of performance, memory, and time requirements, achieving new
state-of-the-art results. Project Page: https://flowchef.github.io.Summary
AI-Generated Summary