PixelMan: Konsistente Objektbearbeitung mit Diffusionsmodellen über Pixelmanipulation und -generierung.
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation
December 18, 2024
Autoren: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI
Zusammenfassung
Aktuelle Forschung untersucht das Potenzial von Diffusionsmodellen (DMs) für konsistentes Objekt-Editing, das darauf abzielt, die Position, Größe und Zusammensetzung von Objekten zu ändern, während die Konsistenz von Objekten und Hintergrund erhalten bleibt, ohne deren Textur und Attribute zu verändern. Aktuelle Inferenzzeit-Methoden stützen sich oft auf DDIM-Inversion, was die Effizienz und die erreichbare Konsistenz von bearbeiteten Bildern grundsätzlich beeinträchtigt. Neuere Methoden nutzen auch Energieführung, die das vorhergesagte Rauschen iterativ aktualisiert und die Latenten vom Originalbild entfernen kann, was zu Verzerrungen führt. In diesem Paper schlagen wir PixelMan vor, eine Inversions- und Trainingsfreie Methode zur Erreichung konsistenten Objekt-Editings über Pixelmanipulation und -generierung, bei der wir eine Duplikatkopie des Quellobjekts direkt am Zielort im Pixelraum erstellen und einen effizienten Sampling-Ansatz einführen, um das manipulierte Objekt iterativ in den Zielort zu harmonisieren und seinen ursprünglichen Ort auszufüllen, während die Bildkonsistenz gewährleistet wird, indem das bearbeitete Bild sowohl an das pixelmanipulierte Bild als auch durch die Einführung verschiedener konsistenzbewahrender Optimierungstechniken während der Inferenz verankert wird. Experimentelle Bewertungen basierend auf Benchmark-Datensätzen sowie umfangreiche visuelle Vergleiche zeigen, dass PixelMan bereits nach 16 Inferenzschritten eine Reihe von State-of-the-Art-Trainingsbasierten und -freien Methoden übertrifft (die normalerweise 50 Schritte erfordern) bei mehreren konsistenten Objekt-Editing-Aufgaben.
English
Recent research explores the potential of Diffusion Models (DMs) for
consistent object editing, which aims to modify object position, size, and
composition, etc., while preserving the consistency of objects and background
without changing their texture and attributes. Current inference-time methods
often rely on DDIM inversion, which inherently compromises efficiency and the
achievable consistency of edited images. Recent methods also utilize energy
guidance which iteratively updates the predicted noise and can drive the
latents away from the original image, resulting in distortions. In this paper,
we propose PixelMan, an inversion-free and training-free method for achieving
consistent object editing via Pixel Manipulation and generation, where we
directly create a duplicate copy of the source object at target location in the
pixel space, and introduce an efficient sampling approach to iteratively
harmonize the manipulated object into the target location and inpaint its
original location, while ensuring image consistency by anchoring the edited
image to be generated to the pixel-manipulated image as well as by introducing
various consistency-preserving optimization techniques during inference.
Experimental evaluations based on benchmark datasets as well as extensive
visual comparisons show that in as few as 16 inference steps, PixelMan
outperforms a range of state-of-the-art training-based and training-free
methods (usually requiring 50 steps) on multiple consistent object editing
tasks.Summary
AI-Generated Summary