Guide-and-Rescale : Mécanisme d'auto-guidage pour une édition efficace d'images réelles sans réglage
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
September 2, 2024
papers.authors: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
cs.AI
papers.abstract
Malgré les récents progrès des modèles génératifs à grande échelle de texte à image, la manipulation d'images réelles avec ces modèles reste un problème complexe. Les principales limites des méthodes d'édition existantes sont qu'elles échouent soit à maintenir une qualité constante pour une large gamme de modifications d'images, soit nécessitent un réglage fastidieux des hyperparamètres ou un ajustement fin du modèle de diffusion pour préserver l'apparence spécifique de l'image d'entrée. Nous proposons une nouvelle approche basée sur un processus d'échantillonnage de diffusion modifié via un mécanisme de guidage. Dans ce travail, nous explorons la technique d'auto-guidage pour préserver la structure globale de l'image d'entrée ainsi que l'apparence des régions locales qui ne doivent pas être modifiées. En particulier, nous introduisons explicitement des fonctions d'énergie préservant la disposition, visant à sauvegarder les structures locales et globales de l'image source. De plus, nous proposons un mécanisme de rééchelonnement du bruit permettant de préserver la distribution du bruit en équilibrant les normes du guidage sans classifieur et de nos guides proposés pendant la génération. Une telle approche de guidage ne nécessite pas d'ajustement fin du modèle de diffusion ni de processus d'inversion exact. En conséquence, la méthode proposée offre un mécanisme d'édition rapide et de haute qualité. Dans nos expériences, nous montrons, grâce à une évaluation humaine et à une analyse quantitative, que la méthode proposée permet de produire des modifications souhaitées, préférées par les humains, et atteint également un meilleur compromis entre la qualité de l'édition et la préservation de l'image originale. Notre code est disponible à l'adresse https://github.com/FusionBrainLab/Guide-and-Rescale.
English
Despite recent advances in large-scale text-to-image generative models,
manipulating real images with these models remains a challenging problem. The
main limitations of existing editing methods are that they either fail to
perform with consistent quality on a wide range of image edits or require
time-consuming hyperparameter tuning or fine-tuning of the diffusion model to
preserve the image-specific appearance of the input image. We propose a novel
approach that is built upon a modified diffusion sampling process via the
guidance mechanism. In this work, we explore the self-guidance technique to
preserve the overall structure of the input image and its local regions
appearance that should not be edited. In particular, we explicitly introduce
layout-preserving energy functions that are aimed to save local and global
structures of the source image. Additionally, we propose a noise rescaling
mechanism that allows to preserve noise distribution by balancing the norms of
classifier-free guidance and our proposed guiders during generation. Such a
guiding approach does not require fine-tuning the diffusion model and exact
inversion process. As a result, the proposed method provides a fast and
high-quality editing mechanism. In our experiments, we show through human
evaluation and quantitative analysis that the proposed method allows to produce
desired editing which is more preferable by humans and also achieves a better
trade-off between editing quality and preservation of the original image. Our
code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.