ChatPaper.aiChatPaper

Modelos de flujo rectificado de dirección en el campo vectorial para la generación de imágenes controlada.

Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

November 27, 2024
Autores: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI

Resumen

Los modelos de difusión (DMs) destacan en fotorealismo, edición de imágenes y resolución de problemas inversos, ayudados por orientación sin clasificadores y técnicas de inversión de imágenes. Sin embargo, los modelos de flujo rectificado (RFMs) siguen siendo poco explorados para estas tareas. Los métodos existentes basados en DM a menudo requieren entrenamiento adicional, carecen de generalización a modelos latentes preentrenados, tienen un rendimiento deficiente y demandan recursos computacionales significativos debido a la extensa retropropagación a través de solucionadores de EDO y procesos de inversión. En este trabajo, primero desarrollamos una comprensión teórica y empírica de la dinámica del campo vectorial de los RFMs en guiar eficientemente la trayectoria de eliminación de ruido. Nuestros hallazgos revelan que podemos navegar el campo vectorial de manera determinista y sin gradientes. Aprovechando esta propiedad, proponemos FlowChef, que utiliza el campo vectorial para dirigir la trayectoria de eliminación de ruido para tareas controladas de generación de imágenes, facilitada por saltos de gradiente. FlowChef es un marco unificado para la generación de imágenes controladas que, por primera vez, aborda simultáneamente la orientación de clasificadores, problemas inversos lineales y edición de imágenes sin necesidad de entrenamiento adicional, inversión o retropropagación intensiva. Finalmente, realizamos evaluaciones exhaustivas y mostramos que FlowChef supera significativamente a los baselines en términos de rendimiento, memoria y requisitos de tiempo, logrando nuevos resultados de vanguardia. Página del proyecto: https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving inverse problems, aided by classifier-free guidance and image inversion techniques. However, rectified flow models (RFMs) remain underexplored for these tasks. Existing DM-based methods often require additional training, lack generalization to pretrained latent models, underperform, and demand significant computational resources due to extensive backpropagation through ODE solvers and inversion processes. In this work, we first develop a theoretical and empirical understanding of the vector field dynamics of RFMs in efficiently guiding the denoising trajectory. Our findings reveal that we can navigate the vector field in a deterministic and gradient-free manner. Utilizing this property, we propose FlowChef, which leverages the vector field to steer the denoising trajectory for controlled image generation tasks, facilitated by gradient skipping. FlowChef is a unified framework for controlled image generation that, for the first time, simultaneously addresses classifier guidance, linear inverse problems, and image editing without the need for extra training, inversion, or intensive backpropagation. Finally, we perform extensive evaluations and show that FlowChef significantly outperforms baselines in terms of performance, memory, and time requirements, achieving new state-of-the-art results. Project Page: https://flowchef.github.io.

Summary

AI-Generated Summary

PDF168December 3, 2024