ChatPaper.aiChatPaper

pOps: Operadores de Difusão Inspirados em Fotografias

pOps: Photo-Inspired Diffusion Operators

June 3, 2024
Autores: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

Resumo

A geração de imagens guiada por texto permite a criação de conteúdo visual a partir de descrições textuais. No entanto, certos conceitos visuais não podem ser efetivamente transmitidos apenas por meio da linguagem. Isso despertou um renovado interesse em utilizar o espaço de incorporação de imagens do CLIP para tarefas mais orientadas visualmente, por meio de métodos como o IP-Adapter. Curiosamente, o espaço de incorporação de imagens do CLIP demonstrou ser semanticamente significativo, onde operações lineares dentro desse espaço produzem resultados semanticamente significativos. No entanto, o significado específico dessas operações pode variar de forma imprevisível entre diferentes imagens. Para aproveitar esse potencial, introduzimos o pOps, um framework que treina operadores semânticos específicos diretamente nas incorporações de imagens do CLIP. Cada operador pOps é construído sobre um modelo Diffusion Prior pré-treinado. Embora o modelo Diffusion Prior tenha sido originalmente treinado para mapear entre incorporações de texto e incorporações de imagens, demonstramos que ele pode ser ajustado para acomodar novas condições de entrada, resultando em um operador de difusão. Trabalhar diretamente com incorporações de imagens não apenas melhora nossa capacidade de aprender operações semânticas, mas também nos permite usar diretamente uma perda CLIP textual como supervisão adicional quando necessário. Mostramos que o pOps pode ser usado para aprender uma variedade de operadores inspirados em fotos com significados semânticos distintos, destacando a diversidade semântica e o potencial da nossa abordagem proposta.
English
Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.
PDF180December 8, 2024