ChatPaper.aiChatPaper

Sturen van gecorrigeerde stroommodellen in het vectorveld voor gecontroleerde beeldgeneratie

Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

November 27, 2024
Auteurs: Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
cs.AI

Samenvatting

Diffusiemodellen (DM's) excelleren in fotorealisme, beeldbewerking en het oplossen van inverse problemen, geholpen door begeleiding zonder classificeerder en beeldomkeertechnieken. Echter blijven gerechtvaardigde stroommodellen (RFM's) onderbelicht voor deze taken. Bestaande op DM's gebaseerde methoden vereisen vaak extra training, missen generalisatie naar vooraf getrainde latente modellen, presteren ondermaats en vergen aanzienlijke rekenbronnen vanwege uitgebreide backpropagatie door ODE-oplossers en omkeerprocessen. In dit werk ontwikkelen we eerst een theoretisch en empirisch begrip van de vectorveld dynamica van RFM's in het efficiënt sturen van de denoising-trajectorie. Onze bevindingen onthullen dat we het vectorveld kunnen navigeren op een deterministische en gradientvrije manier. Door gebruik te maken van deze eigenschap stellen we FlowChef voor, die het vectorveld benut om de denoising-trajectorie te sturen voor gecontroleerde beeldgeneratietaken, gefaciliteerd door het overslaan van gradienten. FlowChef is een verenigd kader voor gecontroleerde beeldgeneratie dat voor het eerst gelijktijdig classificeerderbegeleiding, lineaire inverse problemen en beeldbewerking aanpakt zonder de noodzaak van extra training, omkering of intensieve backpropagatie. Ten slotte voeren we uitgebreide evaluaties uit en tonen aan dat FlowChef aanzienlijk beter presteert dan baselines op het gebied van prestaties, geheugen en tijdsvereisten, met het behalen van nieuwe state-of-the-art resultaten. Projectpagina: https://flowchef.github.io.
English
Diffusion models (DMs) excel in photorealism, image editing, and solving inverse problems, aided by classifier-free guidance and image inversion techniques. However, rectified flow models (RFMs) remain underexplored for these tasks. Existing DM-based methods often require additional training, lack generalization to pretrained latent models, underperform, and demand significant computational resources due to extensive backpropagation through ODE solvers and inversion processes. In this work, we first develop a theoretical and empirical understanding of the vector field dynamics of RFMs in efficiently guiding the denoising trajectory. Our findings reveal that we can navigate the vector field in a deterministic and gradient-free manner. Utilizing this property, we propose FlowChef, which leverages the vector field to steer the denoising trajectory for controlled image generation tasks, facilitated by gradient skipping. FlowChef is a unified framework for controlled image generation that, for the first time, simultaneously addresses classifier guidance, linear inverse problems, and image editing without the need for extra training, inversion, or intensive backpropagation. Finally, we perform extensive evaluations and show that FlowChef significantly outperforms baselines in terms of performance, memory, and time requirements, achieving new state-of-the-art results. Project Page: https://flowchef.github.io.
PDF168December 3, 2024