ChatPaper.aiChatPaper

FlowEdit: Edición de texto sin inversión utilizando modelos de flujo pre-entrenados

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

December 11, 2024
Autores: Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli
cs.AI

Resumen

La edición de imágenes reales utilizando un modelo de difusión/flujos pre-entrenado de texto a imagen (T2I) a menudo implica invertir la imagen en su mapa de ruido correspondiente. Sin embargo, la inversión por sí sola suele ser insuficiente para obtener resultados satisfactorios, por lo que muchos métodos intervienen adicionalmente en el proceso de muestreo. Estos métodos logran resultados mejorados, pero no son fácilmente transferibles entre arquitecturas de modelos. Aquí presentamos FlowEdit, un método de edición basado en texto para modelos de flujo T2I pre-entrenados, que no requiere inversión, optimización ni está ligado a un modelo específico. Nuestro método construye una Ecuación Diferencial Ordinaria (ODE) que mapea directamente entre las distribuciones de origen y destino (correspondientes a las indicaciones de texto de origen y destino) y logra un costo de transporte más bajo que el enfoque de inversión. Esto conduce a resultados de vanguardia, como ilustramos con Stable Diffusion 3 y FLUX. El código y ejemplos están disponibles en la página web del proyecto.
English
Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project's webpage.

Summary

AI-Generated Summary

PDF124December 12, 2024