ChatPaper.aiChatPaper

DiffEditor : Amélioration de la précision et de la flexibilité dans l'édition d'images basée sur la diffusion

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

February 4, 2024
Auteurs: Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang
cs.AI

Résumé

Les modèles de diffusion Text-to-Image (T2I) à grande échelle ont révolutionné la génération d'images au cours des dernières années. Bien qu'ils possèdent des capacités de génération diversifiées et de haute qualité, la traduction de ces capacités en édition d'images à granularité fine reste un défi. Dans cet article, nous proposons DiffEditor pour corriger deux faiblesses des méthodes d'édition d'images basées sur la diffusion existantes : (1) dans des scénarios complexes, les résultats d'édition manquent souvent de précision et présentent des artefacts inattendus ; (2) un manque de flexibilité pour harmoniser les opérations d'édition, par exemple, imaginer de nouveaux contenus. Dans notre solution, nous introduisons des invites d'images dans l'édition d'images à granularité fine, en collaboration avec l'invite textuelle pour mieux décrire le contenu à éditer. Pour augmenter la flexibilité tout en maintenant la cohérence du contenu, nous combinons localement l'équation différentielle stochastique (EDS) à l'échantillonnage par équation différentielle ordinaire (EDO). De plus, nous intégrons un guidage par gradient basé sur les scores régionaux et une stratégie de voyage dans le temps dans l'échantillonnage par diffusion, améliorant ainsi la qualité de l'édition. Des expériences approfondies démontrent que notre méthode peut efficacement atteindre des performances de pointe dans diverses tâches d'édition d'images à granularité fine, y compris l'édition au sein d'une seule image (par exemple, déplacement d'objets, redimensionnement et glissement de contenu) et entre images (par exemple, remplacement d'apparence et collage d'objets). Notre code source est disponible à l'adresse suivante : https://github.com/MC-E/DragonDiffusion.
English
Large-scale Text-to-Image (T2I) diffusion models have revolutionized image generation over the last few years. Although owning diverse and high-quality generation capabilities, translating these abilities to fine-grained image editing remains challenging. In this paper, we propose DiffEditor to rectify two weaknesses in existing diffusion-based image editing: (1) in complex scenarios, editing results often lack editing accuracy and exhibit unexpected artifacts; (2) lack of flexibility to harmonize editing operations, e.g., imagine new content. In our solution, we introduce image prompts in fine-grained image editing, cooperating with the text prompt to better describe the editing content. To increase the flexibility while maintaining content consistency, we locally combine stochastic differential equation (SDE) into the ordinary differential equation (ODE) sampling. In addition, we incorporate regional score-based gradient guidance and a time travel strategy into the diffusion sampling, further improving the editing quality. Extensive experiments demonstrate that our method can efficiently achieve state-of-the-art performance on various fine-grained image editing tasks, including editing within a single image (e.g., object moving, resizing, and content dragging) and across images (e.g., appearance replacing and object pasting). Our source code is released at https://github.com/MC-E/DragonDiffusion.
PDF81December 15, 2024