ChatPaper.aiChatPaper

Kontinuierliche Layout-Bearbeitung einzelner Bilder mit Diffusionsmodellen

Continuous Layout Editing of Single Images with Diffusion Models

June 22, 2023
Autoren: Zhiyuan Zhang, Zhitong Huang, Jing Liao
cs.AI

Zusammenfassung

Jüngste Fortschritte in großskaligen Text-zu-Bild-Diffusionsmodellen haben viele Anwendungen in der Bildbearbeitung ermöglicht. Allerdings war keine dieser Methoden in der Lage, das Layout einzelner bestehender Bilder zu bearbeiten. Um diese Lücke zu schließen, schlagen wir das erste Framework zur Layoutbearbeitung eines einzelnen Bildes vor, das gleichzeitig dessen visuelle Eigenschaften bewahrt und somit eine kontinuierliche Bearbeitung eines einzelnen Bildes ermöglicht. Unser Ansatz wird durch zwei Schlüsselmodule erreicht. Erstens, um die Eigenschaften mehrerer Objekte innerhalb eines Bildes zu bewahren, entwirren wir die Konzepte verschiedener Objekte und betten sie in separate textuelle Tokens ein, indem wir eine neuartige Methode namens maskierte textuelle Inversion verwenden. Anschließend schlagen wir eine trainingsfreie Optimierungsmethode vor, um die Layoutsteuerung für ein vortrainiertes Diffusionsmodell durchzuführen, was es uns ermöglicht, Bilder mit gelernten Konzepten neu zu generieren und sie an benutzerdefinierte Layouts anzupassen. Als erstes Framework zur Bearbeitung des Layouts bestehender Bilder demonstrieren wir, dass unsere Methode effektiv ist und andere Baselines, die für diese Aufgabe modifiziert wurden, übertrifft. Unser Code wird nach der Annahme frei zur öffentlichen Nutzung verfügbar sein.
English
Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance.
PDF70December 15, 2024