Guide-and-Rescale : Mécanisme d'auto-guidage pour une édition efficace d'images réelles sans réglageGuide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free
Real Image Editing
Malgré les récents progrès des modèles génératifs à grande échelle de texte à image, la manipulation d'images réelles avec ces modèles reste un problème complexe. Les principales limites des méthodes d'édition existantes sont qu'elles échouent soit à maintenir une qualité constante pour une large gamme de modifications d'images, soit nécessitent un réglage fastidieux des hyperparamètres ou un ajustement fin du modèle de diffusion pour préserver l'apparence spécifique de l'image d'entrée. Nous proposons une nouvelle approche basée sur un processus d'échantillonnage de diffusion modifié via un mécanisme de guidage. Dans ce travail, nous explorons la technique d'auto-guidage pour préserver la structure globale de l'image d'entrée ainsi que l'apparence des régions locales qui ne doivent pas être modifiées. En particulier, nous introduisons explicitement des fonctions d'énergie préservant la disposition, visant à sauvegarder les structures locales et globales de l'image source. De plus, nous proposons un mécanisme de rééchelonnement du bruit permettant de préserver la distribution du bruit en équilibrant les normes du guidage sans classifieur et de nos guides proposés pendant la génération. Une telle approche de guidage ne nécessite pas d'ajustement fin du modèle de diffusion ni de processus d'inversion exact. En conséquence, la méthode proposée offre un mécanisme d'édition rapide et de haute qualité. Dans nos expériences, nous montrons, grâce à une évaluation humaine et à une analyse quantitative, que la méthode proposée permet de produire des modifications souhaitées, préférées par les humains, et atteint également un meilleur compromis entre la qualité de l'édition et la préservation de l'image originale. Notre code est disponible à l'adresse https://github.com/FusionBrainLab/Guide-and-Rescale.