ChatPaper.aiChatPaper

DiffEditor: Nauwkeurigheid en flexibiliteit verbeteren bij diffusiegebaseerde beeldbewerking

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

February 4, 2024
Auteurs: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

Samenvatting

Grootschalige Text-to-Image (T2I) diffusiemodellen hebben de afgelopen jaren een revolutie teweeggebracht in beeldgeneratie. Hoewel ze over diverse en hoogwaardige generatiemogelijkheden beschikken, blijft het vertalen van deze mogelijkheden naar gedetailleerde beeldbewerking een uitdaging. In dit artikel stellen we DiffEditor voor om twee zwakke punten in bestaande diffusiegebaseerde beeldbewerking aan te pakken: (1) in complexe scenario's ontbreekt het vaak aan nauwkeurigheid in de bewerkingsresultaten en vertonen ze onverwachte artefacten; (2) het ontbreekt aan flexibiliteit om bewerkingsoperaties te harmoniseren, zoals het bedenken van nieuwe inhoud. In onze oplossing introduceren we beeldprompts in gedetailleerde beeldbewerking, die samenwerken met de tekstprompt om de bewerkingsinhoud beter te beschrijven. Om de flexibiliteit te vergroten terwijl de inhoudsconsistentie behouden blijft, combineren we lokaal stochastische differentiaalvergelijkingen (SDE) met de gewone differentiaalvergelijking (ODE) sampling. Daarnaast integreren we regionale scoregebaseerde gradiëntbegeleiding en een tijdreizstrategie in de diffusiesampling, wat de bewerkingskwaliteit verder verbetert. Uitgebreide experimenten tonen aan dat onze methode efficiënt state-of-the-art prestaties kan bereiken bij verschillende gedetailleerde beeldbewerkingstaken, waaronder bewerkingen binnen een enkele afbeelding (bijvoorbeeld objectverplaatsing, formaatwijziging en inhoudsversleping) en tussen afbeeldingen (bijvoorbeeld uiterlijk vervangen en objectplakken). Onze broncode is vrijgegeven op https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image generation over the last few years. Although owning diverse and high-quality generation capabilities, translating these abilities to fine-grained image editing remains challenging. In this paper, we propose DiffEditor to rectify two weaknesses in existing diffusion-based image editing: (1) in complex scenarios, editing results often lack editing accuracy and exhibit unexpected artifacts; (2) lack of flexibility to harmonize editing operations, e.g., imagine new content. In our solution, we introduce image prompts in fine-grained image editing, cooperating with the text prompt to better describe the editing content. To increase the flexibility while maintaining content consistency, we locally combine stochastic differential equation (SDE) into the ordinary differential equation (ODE) sampling. In addition, we incorporate regional score-based gradient guidance and a time travel strategy into the diffusion sampling, further improving the editing quality. Extensive experiments demonstrate that our method can efficiently achieve state-of-the-art performance on various fine-grained image editing tasks, including editing within a single image (e.g., object moving, resizing, and content dragging) and across images (e.g., appearance replacing and object pasting). Our source code is released at https://github.com/MC-E/DragonDiffusion.
PDF81December 22, 2025