ChatPaper.aiChatPaper

PixelMan : Édition cohérente d'objets avec des modèles de diffusion via la manipulation et la génération de pixels

PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

December 18, 2024
Auteurs: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI

Résumé

Des recherches récentes explorent le potentiel des Modèles de Diffusion (DM) pour l'édition cohérente d'objets, qui vise à modifier la position, la taille et la composition des objets, tout en préservant la cohérence des objets et de l'arrière-plan sans changer leur texture et leurs attributs. Les méthodes actuelles à l'instant d'inférence s'appuient souvent sur l'inversion DDIM, compromettant ainsi intrinsèquement l'efficacité et la cohérence réalisable des images modifiées. Les méthodes récentes utilisent également un guidage énergétique qui met à jour de manière itérative le bruit prédit et peut éloigner les latents de l'image d'origine, entraînant des distorsions. Dans cet article, nous proposons PixelMan, une méthode sans inversion et sans entraînement pour réaliser une édition cohérente d'objets via la Manipulation et la génération de pixels, où nous créons directement une copie dupliquée de l'objet source à l'emplacement cible dans l'espace pixel, et introduisons une approche d'échantillonnage efficace pour harmoniser de manière itérative l'objet manipulé dans l'emplacement cible et pour combler son emplacement d'origine, tout en assurant la cohérence de l'image en ancrant l'image éditée à générer à l'image manipulée par pixel ainsi qu'en introduisant diverses techniques d'optimisation préservant la cohérence pendant l'inférence. Les évaluations expérimentales basées sur des ensembles de données de référence ainsi que des comparaisons visuelles approfondies montrent que en seulement 16 étapes d'inférence, PixelMan surpasse toute une gamme de méthodes de pointe basées sur l'entraînement et sans entraînement (nécessitant généralement 50 étapes) sur de multiples tâches d'édition cohérente d'objets.
English
Recent research explores the potential of Diffusion Models (DMs) for consistent object editing, which aims to modify object position, size, and composition, etc., while preserving the consistency of objects and background without changing their texture and attributes. Current inference-time methods often rely on DDIM inversion, which inherently compromises efficiency and the achievable consistency of edited images. Recent methods also utilize energy guidance which iteratively updates the predicted noise and can drive the latents away from the original image, resulting in distortions. In this paper, we propose PixelMan, an inversion-free and training-free method for achieving consistent object editing via Pixel Manipulation and generation, where we directly create a duplicate copy of the source object at target location in the pixel space, and introduce an efficient sampling approach to iteratively harmonize the manipulated object into the target location and inpaint its original location, while ensuring image consistency by anchoring the edited image to be generated to the pixel-manipulated image as well as by introducing various consistency-preserving optimization techniques during inference. Experimental evaluations based on benchmark datasets as well as extensive visual comparisons show that in as few as 16 inference steps, PixelMan outperforms a range of state-of-the-art training-based and training-free methods (usually requiring 50 steps) on multiple consistent object editing tasks.

Summary

AI-Generated Summary

PDF34December 20, 2024