pOps: Operatori di Diffusione Ispirati dalle Foto
pOps: Photo-Inspired Diffusion Operators
June 3, 2024
Autori: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Abstract
La generazione di immagini guidata da testo consente la creazione di contenuti visivi a partire da descrizioni testuali. Tuttavia, alcuni concetti visivi non possono essere efficacemente comunicati attraverso il linguaggio da soli. Ciò ha suscitato un rinnovato interesse nell'utilizzo dello spazio di embedding delle immagini CLIP per compiti più orientati al visivo, attraverso metodi come IP-Adapter. È interessante notare che lo spazio di embedding delle immagini CLIP si è dimostrato semanticamente significativo, dove operazioni lineari all'interno di questo spazio producono risultati semanticamente significativi. Tuttavia, il significato specifico di queste operazioni può variare in modo imprevedibile tra immagini diverse. Per sfruttare questo potenziale, introduciamo pOps, un framework che addestra operatori semantici specifici direttamente sugli embedding delle immagini CLIP. Ogni operatore pOps è costruito su un modello Diffusion Prior pre-addestrato. Sebbene il modello Diffusion Prior sia stato originariamente addestrato per mappare tra embedding di testo e embedding di immagini, dimostriamo che può essere adattato per accogliere nuove condizioni di input, risultando in un operatore di diffusione. Lavorare direttamente sugli embedding delle immagini non solo migliora la nostra capacità di apprendere operazioni semantiche, ma ci permette anche di utilizzare direttamente una perdita CLIP testuale come supervisione aggiuntiva quando necessario. Mostriamo che pOps può essere utilizzato per apprendere una varietà di operatori ispirati alla fotografia con significati semantici distinti, evidenziando la diversità semantica e il potenziale del nostro approccio proposto.
English
Text-guided image generation enables the creation of visual content from
textual descriptions. However, certain visual concepts cannot be effectively
conveyed through language alone. This has sparked a renewed interest in
utilizing the CLIP image embedding space for more visually-oriented tasks
through methods such as IP-Adapter. Interestingly, the CLIP image embedding
space has been shown to be semantically meaningful, where linear operations
within this space yield semantically meaningful results. Yet, the specific
meaning of these operations can vary unpredictably across different images. To
harness this potential, we introduce pOps, a framework that trains specific
semantic operators directly on CLIP image embeddings. Each pOps operator is
built upon a pretrained Diffusion Prior model. While the Diffusion Prior model
was originally trained to map between text embeddings and image embeddings, we
demonstrate that it can be tuned to accommodate new input conditions, resulting
in a diffusion operator. Working directly over image embeddings not only
improves our ability to learn semantic operations but also allows us to
directly use a textual CLIP loss as an additional supervision when needed. We
show that pOps can be used to learn a variety of photo-inspired operators with
distinct semantic meanings, highlighting the semantic diversity and potential
of our proposed approach.