Édition continue de la mise en page d'images uniques avec des modèles de diffusion
Continuous Layout Editing of Single Images with Diffusion Models
June 22, 2023
Auteurs: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI
Résumé
Les récents progrès des modèles de diffusion à grande échelle pour la génération d'images à partir de texte ont permis de nombreuses applications en édition d'images. Cependant, aucune de ces méthodes n'a été capable de modifier la disposition d'images individuelles existantes. Pour combler cette lacune, nous proposons le premier cadre de travail permettant de modifier la disposition d'une seule image tout en préservant ses propriétés visuelles, permettant ainsi une édition continue sur une seule image. Notre approche repose sur deux modules clés. Tout d'abord, pour préserver les caractéristiques de plusieurs objets au sein d'une image, nous dissocions les concepts des différents objets et les intégrons dans des tokens textuels distincts en utilisant une nouvelle méthode appelée inversion textuelle masquée. Ensuite, nous proposons une méthode d'optimisation sans apprentissage pour contrôler la disposition d'un modèle de diffusion pré-entraîné, ce qui nous permet de régénérer des images avec les concepts appris et de les aligner avec les dispositions spécifiées par l'utilisateur. En tant que premier cadre de travail permettant de modifier la disposition d'images existantes, nous démontrons que notre méthode est efficace et surpasse d'autres approches de référence adaptées pour cette tâche. Notre code sera librement accessible au public après acceptation.
English
Recent advancements in large-scale text-to-image diffusion models have
enabled many applications in image editing. However, none of these methods have
been able to edit the layout of single existing images. To address this gap, we
propose the first framework for layout editing of a single image while
preserving its visual properties, thus allowing for continuous editing on a
single image. Our approach is achieved through two key modules. First, to
preserve the characteristics of multiple objects within an image, we
disentangle the concepts of different objects and embed them into separate
textual tokens using a novel method called masked textual inversion. Next, we
propose a training-free optimization method to perform layout control for a
pre-trained diffusion model, which allows us to regenerate images with learned
concepts and align them with user-specified layouts. As the first framework to
edit the layout of existing images, we demonstrate that our method is effective
and outperforms other baselines that were modified to support this task. Our
code will be freely available for public use upon acceptance.