ChatPaper.aiChatPaper

PixelMan: Consistente Objectbewerking met Diffusiemodellen via Pixelmanipulatie en Generatie

PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

December 18, 2024
Auteurs: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu
cs.AI

Samenvatting

Recent onderzoek verkent het potentieel van Diffusie Modellen (DM's) voor consistente objectbewerking, die tot doel heeft objectpositie, grootte, samenstelling, enz. te wijzigen, terwijl de consistentie van objecten en achtergrond behouden blijft zonder hun textuur en attributen te veranderen. Huidige inferentiemethoden vertrouwen vaak op DDIM-inversie, wat intrinsiek de efficiëntie en de haalbare consistentie van bewerkte afbeeldingen compromitteert. Recente methoden maken ook gebruik van energierichtlijnen die voorspelde ruis iteratief bijwerken en de latenties van de originele afbeelding kunnen wegleiden, resulterend in vervormingen. In dit artikel stellen we PixelMan voor, een inversievrije en trainingvrije methode om consistente objectbewerking te bereiken via Pixel Manipulatie en generatie, waarbij we rechtstreeks een duplicaat van het bronobject op de doellocatie in de pixelpuntruimte creëren, en een efficiënte bemonsteringsbenadering introduceren om het gemanipuleerde object iteratief in de doellocatie te harmoniseren en de oorspronkelijke locatie in te vullen, terwijl we beeldconsistentie waarborgen door het bewerkte beeld te verankeren aan het te genereren pixel-gemanipuleerde beeld en door verschillende consistentiebehoudende optimalisatietechnieken tijdens inferentie te introduceren. Experimentele evaluaties gebaseerd op benchmark datasets evenals uitgebreide visuele vergelijkingen tonen aan dat PixelMan in slechts 16 inferentiestappen beter presteert dan een reeks state-of-the-art op training gebaseerde en trainingvrije methoden (die meestal 50 stappen vereisen) op meerdere consistente objectbewerkingstaken.
English
Recent research explores the potential of Diffusion Models (DMs) for consistent object editing, which aims to modify object position, size, and composition, etc., while preserving the consistency of objects and background without changing their texture and attributes. Current inference-time methods often rely on DDIM inversion, which inherently compromises efficiency and the achievable consistency of edited images. Recent methods also utilize energy guidance which iteratively updates the predicted noise and can drive the latents away from the original image, resulting in distortions. In this paper, we propose PixelMan, an inversion-free and training-free method for achieving consistent object editing via Pixel Manipulation and generation, where we directly create a duplicate copy of the source object at target location in the pixel space, and introduce an efficient sampling approach to iteratively harmonize the manipulated object into the target location and inpaint its original location, while ensuring image consistency by anchoring the edited image to be generated to the pixel-manipulated image as well as by introducing various consistency-preserving optimization techniques during inference. Experimental evaluations based on benchmark datasets as well as extensive visual comparisons show that in as few as 16 inference steps, PixelMan outperforms a range of state-of-the-art training-based and training-free methods (usually requiring 50 steps) on multiple consistent object editing tasks.
PDF34December 20, 2024