pOps: Foto-geïnspireerde diffusie-operatoren
pOps: Photo-Inspired Diffusion Operators
June 3, 2024
Auteurs: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Samenvatting
Tekstgestuurde beeldgeneratie maakt het mogelijk om visuele inhoud te creëren op basis van tekstuele beschrijvingen. Bepaalde visuele concepten kunnen echter niet effectief worden overgebracht door taal alleen. Dit heeft een hernieuwde interesse gewekt in het gebruik van de CLIP-beeldembeddingruimte voor meer visueel gerichte taken via methoden zoals IP-Adapter. Interessant is dat de CLIP-beeldembeddingruimte semantisch betekenisvol is gebleken, waarbij lineaire operaties binnen deze ruimte semantisch betekenisvolle resultaten opleveren. Toch kan de specifieke betekenis van deze operaties onvoorspelbaar variëren tussen verschillende afbeeldingen. Om dit potentieel te benutten, introduceren we pOps, een framework dat specifieke semantische operatoren rechtstreeks op CLIP-beeldembeddings traint. Elke pOps-operator is gebaseerd op een vooraf getraind Diffusion Prior-model. Hoewel het Diffusion Prior-model oorspronkelijk werd getraind om tussen tekstembeddings en beeldembeddings te mappen, tonen we aan dat het kan worden afgestemd om nieuwe invoercondities te accommoderen, wat resulteert in een diffusie-operator. Rechtstreeks werken met beeldembeddings verbetert niet alleen ons vermogen om semantische operaties te leren, maar stelt ons ook in staat om een tekstuele CLIP-verliesfunctie als aanvullende supervisie te gebruiken wanneer nodig. We laten zien dat pOps kan worden gebruikt om een verscheidenheid aan foto-geïnspireerde operatoren met verschillende semantische betekenissen te leren, wat de semantische diversiteit en het potentieel van onze voorgestelde aanpak benadrukt.
English
Text-guided image generation enables the creation of visual content from
textual descriptions. However, certain visual concepts cannot be effectively
conveyed through language alone. This has sparked a renewed interest in
utilizing the CLIP image embedding space for more visually-oriented tasks
through methods such as IP-Adapter. Interestingly, the CLIP image embedding
space has been shown to be semantically meaningful, where linear operations
within this space yield semantically meaningful results. Yet, the specific
meaning of these operations can vary unpredictably across different images. To
harness this potential, we introduce pOps, a framework that trains specific
semantic operators directly on CLIP image embeddings. Each pOps operator is
built upon a pretrained Diffusion Prior model. While the Diffusion Prior model
was originally trained to map between text embeddings and image embeddings, we
demonstrate that it can be tuned to accommodate new input conditions, resulting
in a diffusion operator. Working directly over image embeddings not only
improves our ability to learn semantic operations but also allows us to
directly use a textual CLIP loss as an additional supervision when needed. We
show that pOps can be used to learn a variety of photo-inspired operators with
distinct semantic meanings, highlighting the semantic diversity and potential
of our proposed approach.