FlowOpt : Optimisation rapide par le biais de processus de flux complets pour l'édition sans entraînement

papers.abstract

Le succès remarquable des modèles de diffusion et d'appariement de flux a déclenché une vague de travaux visant à les adapter au moment du test pour des tâches de génération contrôlée. Les exemples vont de l'édition d'image à la restauration, la compression et la personnalisation. Cependant, en raison de la nature itérative du processus d'échantillonnage de ces modèles, il est informatiquement impraticable d'utiliser une optimisation basée sur le gradient pour contrôler directement l'image générée à la fin du processus. Par conséquent, les méthodes existantes ont généralement recours à la manipulation de chaque pas de temps séparément. Nous présentons ici FlowOpt - un cadre d'optimisation d'ordre zéro (sans gradient) qui traite l'ensemble du processus de flux comme une boîte noire, permettant une optimisation à travers le chemin d'échantillonnage entier sans rétropropagation à travers le modèle. Notre méthode est à la fois très efficace et permet aux utilisateurs de surveiller les résultats intermédiaires de l'optimisation et d'effectuer un arrêt anticipé si souhaité. Nous prouvons une condition suffisante sur la taille du pas de FlowOpt, sous laquelle la convergence vers l'optimum global est garantie. Nous montrons en outre comment estimer empiriquement cette borne supérieure afin de choisir une taille de pas appropriée. Nous démontrons comment FlowOpt peut être utilisé pour l'édition d'image, en présentant deux options : (i) l'inversion (déterminer le bruit initial qui génère une image donnée), et (ii) l'orientation directe de l'image modifiée pour qu'elle soit similaire à l'image source tout en respectant une invite textuelle cible. Dans les deux cas, FlowOpt obtient des résultats à l'état de l'art tout en utilisant à peu près le même nombre d'évaluations de fonctions neuronales (NFE) que les méthodes existantes. Le code et des exemples sont disponibles sur la page web du projet.

English

The remarkable success of diffusion and flow-matching models has ignited a surge of works on adapting them at test time for controlled generation tasks. Examples range from image editing to restoration, compression and personalization. However, due to the iterative nature of the sampling process in those models, it is computationally impractical to use gradient-based optimization to directly control the image generated at the end of the process. As a result, existing methods typically resort to manipulating each timestep separately. Here we introduce FlowOpt - a zero-order (gradient-free) optimization framework that treats the entire flow process as a black box, enabling optimization through the whole sampling path without backpropagation through the model. Our method is both highly efficient and allows users to monitor the intermediate optimization results and perform early stopping if desired. We prove a sufficient condition on FlowOpt's step-size, under which convergence to the global optimum is guaranteed. We further show how to empirically estimate this upper bound so as to choose an appropriate step-size. We demonstrate how FlowOpt can be used for image editing, showcasing two options: (i) inversion (determining the initial noise that generates a given image), and (ii) directly steering the edited image to be similar to the source image while conforming to a target text prompt. In both cases, FlowOpt achieves state-of-the-art results while using roughly the same number of neural function evaluations (NFEs) as existing methods. Code and examples are available on the project's webpage.

FlowOpt : Optimisation rapide par le biais de processus de flux complets pour l'édition sans entraînement

FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing

papers.abstract

Support