pOps: Foto-inspirierte Diffusionsoperatoren
pOps: Photo-Inspired Diffusion Operators
June 3, 2024
Autoren: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Zusammenfassung
Die Generierung von Bildern anhand von Textbeschreibungen ermöglicht die Erstellung visueller Inhalte. Allerdings können bestimmte visuelle Konzepte allein durch Sprache nicht effektiv vermittelt werden. Dies hat ein erneutes Interesse an der Nutzung des CLIP-Bild-Einbettungsraums für stärker visuell orientierte Aufgaben durch Methoden wie IP-Adapter geweckt. Interessanterweise wurde gezeigt, dass der CLIP-Bild-Einbettungsraum semantisch sinnvoll ist, wobei lineare Operationen innerhalb dieses Raums semantisch sinnvolle Ergebnisse liefern. Dennoch kann die spezifische Bedeutung dieser Operationen unvorhersehbar variieren, abhängig von verschiedenen Bildern. Um dieses Potenzial zu nutzen, stellen wir pOps vor, ein Framework, das spezifische semantische Operatoren direkt auf CLIP-Bild-Einbettungen trainiert. Jeder pOps-Operator basiert auf einem vorab trainierten Diffusion-Prior-Modell. Während das Diffusion-Prior-Modell ursprünglich darauf trainiert wurde, zwischen Text-Einbettungen und Bild-Einbettungen zu vermitteln, zeigen wir, dass es angepasst werden kann, um neue Eingangsbedingungen zu berücksichtigen und somit einen Diffusionsoperator zu erzeugen. Die direkte Arbeit über Bild-Einbettungen verbessert nicht nur unsere Fähigkeit, semantische Operationen zu erlernen, sondern ermöglicht es uns auch, einen textuellen CLIP-Verlust direkt als zusätzliche Überwachung zu verwenden, wenn erforderlich. Wir zeigen, dass pOps verwendet werden kann, um eine Vielzahl von fotoinspirierten Operatoren mit unterschiedlichen semantischen Bedeutungen zu erlernen, wodurch die semantische Vielfalt und das Potenzial unseres vorgeschlagenen Ansatzes hervorgehoben werden.
English
Text-guided image generation enables the creation of visual content from
textual descriptions. However, certain visual concepts cannot be effectively
conveyed through language alone. This has sparked a renewed interest in
utilizing the CLIP image embedding space for more visually-oriented tasks
through methods such as IP-Adapter. Interestingly, the CLIP image embedding
space has been shown to be semantically meaningful, where linear operations
within this space yield semantically meaningful results. Yet, the specific
meaning of these operations can vary unpredictably across different images. To
harness this potential, we introduce pOps, a framework that trains specific
semantic operators directly on CLIP image embeddings. Each pOps operator is
built upon a pretrained Diffusion Prior model. While the Diffusion Prior model
was originally trained to map between text embeddings and image embeddings, we
demonstrate that it can be tuned to accommodate new input conditions, resulting
in a diffusion operator. Working directly over image embeddings not only
improves our ability to learn semantic operations but also allows us to
directly use a textual CLIP loss as an additional supervision when needed. We
show that pOps can be used to learn a variety of photo-inspired operators with
distinct semantic meanings, highlighting the semantic diversity and potential
of our proposed approach.Summary
AI-Generated Summary