FlowOpt: Optimización Rápida Mediante Procesos de Flujo Completo para Edición Sin Entrenamiento

Resumen

El notable éxito de los modelos de difusión y de correspondencia de flujos (flow-matching) ha impulsado una oleada de trabajos que los adaptan en tiempo de prueba para tareas de generación controlada. Los ejemplos abarcan desde la edición de imágenes hasta la restauración, compresión y personalización. Sin embargo, debido a la naturaleza iterativa del proceso de muestreo en estos modelos, es computacionalmente inviable utilizar optimización basada en gradientes para controlar directamente la imagen generada al final del proceso. Como resultado, los métodos existentes suelen recurrir a manipular cada paso de tiempo por separado. Aquí presentamos FlowOpt: un marco de optimización de orden cero (libre de gradientes) que trata todo el proceso de flujo como una caja negra, permitiendo la optimización a lo largo de toda la trayectoria de muestreo sin retropropagación a través del modelo. Nuestro método es altamente eficiente y permite a los usuarios monitorear los resultados intermedios de la optimización y realizar una parada anticipada si lo desean. Demostramos una condición suficiente para el tamaño de paso de FlowOpt, bajo la cual se garantiza la convergencia al óptimo global. Además, mostramos cómo estimar empíricamente este límite superior para elegir un tamaño de paso apropiado. Demostramos cómo FlowOpt puede utilizarse para la edición de imágenes, presentando dos opciones: (i) inversión (determinar el ruido inicial que genera una imagen dada), y (ii) dirigir directamente la imagen editada para que sea similar a la imagen fuente mientras se ajusta a un mensaje de texto objetivo. En ambos casos, FlowOpt logra resultados de vanguardia utilizando aproximadamente el mismo número de evaluaciones de la función neuronal (NFEs) que los métodos existentes. El código y los ejemplos están disponibles en la página web del proyecto.

English

The remarkable success of diffusion and flow-matching models has ignited a surge of works on adapting them at test time for controlled generation tasks. Examples range from image editing to restoration, compression and personalization. However, due to the iterative nature of the sampling process in those models, it is computationally impractical to use gradient-based optimization to directly control the image generated at the end of the process. As a result, existing methods typically resort to manipulating each timestep separately. Here we introduce FlowOpt - a zero-order (gradient-free) optimization framework that treats the entire flow process as a black box, enabling optimization through the whole sampling path without backpropagation through the model. Our method is both highly efficient and allows users to monitor the intermediate optimization results and perform early stopping if desired. We prove a sufficient condition on FlowOpt's step-size, under which convergence to the global optimum is guaranteed. We further show how to empirically estimate this upper bound so as to choose an appropriate step-size. We demonstrate how FlowOpt can be used for image editing, showcasing two options: (i) inversion (determining the initial noise that generates a given image), and (ii) directly steering the edited image to be similar to the source image while conforming to a target text prompt. In both cases, FlowOpt achieves state-of-the-art results while using roughly the same number of neural function evaluations (NFEs) as existing methods. Code and examples are available on the project's webpage.

FlowOpt: Optimización Rápida Mediante Procesos de Flujo Completo para Edición Sin Entrenamiento

FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing

Resumen

Support